La programación mediante demostraciones es uno de los métodos más eficientes para transferir conocimiento y desarrollar sistemas de aprendizaje avanzados, siempre y cuando los profesores brinden demostraciones abundantes y correctas, y los alumnos las perciban correctamente. Sin embargo, las demostraciones son insuficientes y poco óptimas en casi todos los problemas del mundo real. Se necesita información complementaria para compensar estas deficiencias de las demostraciones. En este artículo, nos enfocamos en la programación a través de una combinación de demostraciones y retroalimentación evaluativa binaria limitada, donde el alumno utiliza sus propias experiencias evaluadas como nuevas demostraciones en un método extendido de aprendizaje inverso por refuerzo. Esto proporciona al alumno una generalización más amplia y menos arrepentimiento, así como robustez frente a la escasez y no optimalidad en las demostraciones y retroalimentaciones. Nuestro método alivia la carga irrealista sobre los profesores de proporcionar demostraciones óptimas y abundantes. El uso de una retroalimentación evaluativa, que es fácil de proporcionar para los profesores, brinda la oportunidad de corregir el comportamiento de los alumnos en un entorno social interactivo sin requerir que los profesores conozcan y utilicen su propia función de recompensa precisa. Aquí, mejoramos el aprendizaje inverso por refuerzo () para estimar la función de recompensa utilizando una mezcla de demostraciones no óptimas y escasas y retroalimentaciones evaluativas. Nuestro método, llamado a partir de demostraciones y críticas humanas (), consta de dos fases. Primero, el profesor proporciona algunas demostraciones para que el alumno inicialice su política. Luego, el alumno interactúa con el entorno y el profesor proporciona retroalimentaciones evaluativas binarias. Teniendo en cuenta posibles inconsistencias y errores en la emisión y recepción de retroalimentaciones, el alumno revisa la función de recompensa estimada resolviendo un único problema de optimización. El está diseñado para manejar errores y escaseces en demostraciones y retroalimentaciones, y puede generalizar diferentes combinaciones de estas dos fuentes de experiencia. Aplicamos nuestro método a tres dominios: una tarea de navegación simulada, un problema de conducción de automóviles simulado con interacciones humanas y un experimento de navegación de un robot móvil. Los resultados indican que el mejora significativamente el proceso de aprendizaje donde los métodos estándar de fallan y los métodos de aprendizaje a partir de retroalimentaciones () tienen un alto arrepentimiento. Además, el funciona bien en diferentes niveles de escasez y optimalidad de las demostraciones y retroalimentaciones de los profesores, donde otros métodos de vanguardia fallan.
Esta es una versión de prueba de citación de documentos de la Biblioteca Virtual Pro. Puede contener errores. Lo invitamos a consultar los manuales de citación de las respectivas fuentes.
Artículo:
Propiedades mecánicas de un material de base para prótesis de poli(metacrilato de metilo) modificado con itaconato de dimetilo e itaconato de di-n-butilo
Artículo:
Avances recientes en el tratamiento quirúrgico del cáncer de tiroides diferenciado: Una revisión exhaustiva
Artículo:
Métodos no contaminantes para el control de la formación de biopelículas en superficies metálicas de interés industrial
Artículo:
Sobre el uso de herramientas de imagen cerebral EEG o MEG en la investigación de neuromarketing
Artículo:
Comunicación de salud y práctica conductual hacia la erradicación del virus de la hepatitis B en el suroeste de Nigeria.
Artículo:
Medicina de la conservación ¿una disciplina para médicos veterinarios?
Libro:
Tratamiento de aguas para consumo humano : plantas de filtración rápida. Manual II : diseño de plantas de tecnología apropiada
Artículo:
Configuración de los valores de María, antes y después de la violación, en Satanás de Mario Mendoza
Showroom:
Panel fotovoltaico: Dimensionamiento y funcionamiento