Cookies y Privacidad
Usamos cookies propias y de terceros para mejorar la experiencia de nuestros usuarios, analizar el tráfico del sitio y personalizar contenido. Si continúas navegando, asumimos que aceptas su uso. Para más información, consulta nuestra Política de Cookies
Investigación sobre el control de dos brazos de un robot lunar asistido basado en aprendizaje de refuerzo jerárquico en un entorno no estructurado
Un robot asistido por la Luna ayuda a un astronauta a girarse o lo transporta desde la Tierra, la trayectoria de sus brazos debe planificarse automáticamente según el entorno no estructurado de la superficie lunar. Este artículo presenta un modelo de estrategia de control de brazo dual de un robot lunar asistido basado en el aprendizaje jerárquico por refuerzo, y el problema de planificación de la trayectoria se modela como un proceso de decisión de Markov de dos capas. Durante el entrenamiento, se propone un método de diseño de funciones de recompensa basado en el método del campo de potencial artificial, y la información de recompensa se retroalimenta mediante un método de recompensa denso, lo que reduce significativamente el espacio de exploración no válido y mejora la eficiencia del aprendizaje. Esta investigación es fundamental para la interacción humano-robot, la interacción ambiental y el control inteligente de robots.
Autores: Ren, Weiyan; Han, Dapeng; Wang, Zhaokui
Idioma: Inglés
Editor: Shuang Li
Año: 2022
Categoría
Licencia
Consultas: 27
Citaciones: Sin citaciones
Este documento es un artículo elaborado por Weiyan Ren, Dapeng Han y Zhaokui Wang?(Universidad de Tsinghua, China) para la revista Aerospace Vol. 9 Núm. 6. Publicación de MDPI. Contacto: aerospace@mdpi.com
Un robot asistido por la Luna ayuda a un astronauta a girarse o lo transporta desde la Tierra, la trayectoria de sus brazos debe planificarse automáticamente según el entorno no estructurado de la superficie lunar. Este artículo presenta un modelo de estrategia de control de brazo dual de un robot lunar asistido basado en el aprendizaje jerárquico por refuerzo, y el problema de planificación de la trayectoria se modela como un proceso de decisión de Markov de dos capas. Durante el entrenamiento, se propone un método de diseño de funciones de recompensa basado en el método del campo de potencial artificial, y la información de recompensa se retroalimenta mediante un método de recompensa denso, lo que reduce significativamente el espacio de exploración no válido y mejora la eficiencia del aprendizaje. Esta investigación es fundamental para la interacción humano-robot, la interacción ambiental y el control inteligente de robots.
Un robot asistido por la Luna ayuda a un astronauta a girarse o lo transporta desde la Tierra, la trayectoria de sus brazos debe planificarse automáticamente según el entorno no estructurado de la superficie lunar. Este artículo presenta un modelo de estrategia de control de brazo dual de un robot lunar asistido basado en el aprendizaje jerárquico por refuerzo, y el problema de planificación de la trayectoria se modela como un proceso de decisión de Markov de dos capas. Durante el entrenamiento, se propone un método de diseño de funciones de recompensa basado en el método del campo de potencial artificial, y la información de recompensa se retroalimenta mediante un método de recompensa denso, lo que reduce significativamente el espacio de exploración no válido y mejora la eficiencia del aprendizaje. Esta investigación es fundamental para la interacción humano-robot, la interacción ambiental y el control inteligente de robots.