La programación mediante demostraciones es uno de los métodos más eficientes para transferir conocimiento y desarrollar sistemas de aprendizaje avanzados, siempre y cuando los profesores brinden demostraciones abundantes y correctas, y los alumnos las perciban correctamente. Sin embargo, las demostraciones son insuficientes y poco óptimas en casi todos los problemas del mundo real. Se necesita información complementaria para compensar estas deficiencias de las demostraciones. En este artículo, nos enfocamos en la programación a través de una combinación de demostraciones y retroalimentación evaluativa binaria limitada, donde el alumno utiliza sus propias experiencias evaluadas como nuevas demostraciones en un método extendido de aprendizaje inverso por refuerzo. Esto proporciona al alumno una generalización más amplia y menos arrepentimiento, así como robustez frente a la escasez y no optimalidad en las demostraciones y retroalimentaciones. Nuestro método alivia la carga irrealista sobre los profesores de proporcionar demostraciones óptimas y abundantes. El uso de una retroalimentación evaluativa, que es fácil de proporcionar para los profesores, brinda la oportunidad de corregir el comportamiento de los alumnos en un entorno social interactivo sin requerir que los profesores conozcan y utilicen su propia función de recompensa precisa. Aquí, mejoramos el aprendizaje inverso por refuerzo () para estimar la función de recompensa utilizando una mezcla de demostraciones no óptimas y escasas y retroalimentaciones evaluativas. Nuestro método, llamado a partir de demostraciones y críticas humanas (), consta de dos fases. Primero, el profesor proporciona algunas demostraciones para que el alumno inicialice su política. Luego, el alumno interactúa con el entorno y el profesor proporciona retroalimentaciones evaluativas binarias. Teniendo en cuenta posibles inconsistencias y errores en la emisión y recepción de retroalimentaciones, el alumno revisa la función de recompensa estimada resolviendo un único problema de optimización. El está diseñado para manejar errores y escaseces en demostraciones y retroalimentaciones, y puede generalizar diferentes combinaciones de estas dos fuentes de experiencia. Aplicamos nuestro método a tres dominios: una tarea de navegación simulada, un problema de conducción de automóviles simulado con interacciones humanas y un experimento de navegación de un robot móvil. Los resultados indican que el mejora significativamente el proceso de aprendizaje donde los métodos estándar de fallan y los métodos de aprendizaje a partir de retroalimentaciones () tienen un alto arrepentimiento. Además, el funciona bien en diferentes niveles de escasez y optimalidad de las demostraciones y retroalimentaciones de los profesores, donde otros métodos de vanguardia fallan.
Esta es una versión de prueba de citación de documentos de la Biblioteca Virtual Pro. Puede contener errores. Lo invitamos a consultar los manuales de citación de las respectivas fuentes.
Artículo:
Un enfoque mejorado de control de amortiguación de área amplia basado en la compensación de predicción de Prony para la supresión de oscilaciones de baja frecuencia del sistema eléctrico
Artículo:
Adhesión celular sobre superficie de Ti con rugosidad controlada
Artículo:
Migraña e ictus
Artículo:
Aplicación de un enfoque estadístico conjunto a la predicción espacial de la probabilidad de incendios forestales y la cartografía de riesgos
Artículo:
Sistema de navegación integrado SINS/GPS/ADS/DVL tolerante a fallos basado en la estrategia de conmutación de navegación
Libro:
Ergonomía en los sistemas de trabajo
Artículo:
Obtención de gas combustible mediante la bioconversión del alga marina Ulva lactuca
Artículo:
Sistemas de producción y potencial energético de la energía mareomotriz
Artículo:
La necesidad de la planeación estratégica en las organizaciones industriales modernas