Biblioteca122.739 documentos en línea

Artículo

Learning from Demonstrations and Human Evaluative Feedbacks: Handling Sparsity and Imperfection Using Inverse Reinforcement Learning ApproachAprendizaje a partir de demostraciones y retroalimentación evaluativa humana: Manejo de la escasez y la imperfección mediante un enfoque de aprendizaje por refuerzo inverso

Resumen

La programación mediante demostraciones es uno de los métodos más eficientes para transferir conocimiento y desarrollar sistemas de aprendizaje avanzados, siempre y cuando los profesores brinden demostraciones abundantes y correctas, y los alumnos las perciban correctamente. Sin embargo, las demostraciones son insuficientes y poco óptimas en casi todos los problemas del mundo real. Se necesita información complementaria para compensar estas deficiencias de las demostraciones. En este artículo, nos enfocamos en la programación a través de una combinación de demostraciones y retroalimentación evaluativa binaria limitada, donde el alumno utiliza sus propias experiencias evaluadas como nuevas demostraciones en un método extendido de aprendizaje inverso por refuerzo. Esto proporciona al alumno una generalización más amplia y menos arrepentimiento, así como robustez frente a la escasez y no optimalidad en las demostraciones y retroalimentaciones. Nuestro método alivia la carga irrealista sobre los profesores de proporcionar demostraciones óptimas y abundantes. El uso de una retroalimentación evaluativa, que es fácil de proporcionar para los profesores, brinda la oportunidad de corregir el comportamiento de los alumnos en un entorno social interactivo sin requerir que los profesores conozcan y utilicen su propia función de recompensa precisa. Aquí, mejoramos el aprendizaje inverso por refuerzo () para estimar la función de recompensa utilizando una mezcla de demostraciones no óptimas y escasas y retroalimentaciones evaluativas. Nuestro método, llamado a partir de demostraciones y críticas humanas (), consta de dos fases. Primero, el profesor proporciona algunas demostraciones para que el alumno inicialice su política. Luego, el alumno interactúa con el entorno y el profesor proporciona retroalimentaciones evaluativas binarias. Teniendo en cuenta posibles inconsistencias y errores en la emisión y recepción de retroalimentaciones, el alumno revisa la función de recompensa estimada resolviendo un único problema de optimización. El está diseñado para manejar errores y escaseces en demostraciones y retroalimentaciones, y puede generalizar diferentes combinaciones de estas dos fuentes de experiencia. Aplicamos nuestro método a tres dominios: una tarea de navegación simulada, un problema de conducción de automóviles simulado con interacciones humanas y un experimento de navegación de un robot móvil. Los resultados indican que el mejora significativamente el proceso de aprendizaje donde los métodos estándar de fallan y los métodos de aprendizaje a partir de retroalimentaciones () tienen un alto arrepentimiento. Además, el funciona bien en diferentes niveles de escasez y optimalidad de las demostraciones y retroalimentaciones de los profesores, donde otros métodos de vanguardia fallan.

  • Tipo de documento:
  • Formato:pdf
  • Idioma:Inglés
  • Tamaño: Kb

Cómo citar el documento

Esta es una versión de prueba de citación de documentos de la Biblioteca Virtual Pro. Puede contener errores. Lo invitamos a consultar los manuales de citación de las respectivas fuentes.

Este contenido no est� disponible para su tipo de suscripci�n

Información del documento