Este trabajo propone un diseño de control adaptativo tridimensional (3D) de seguimiento de trayectoria para una aeronave robótica basado en el aprendizaje por refuerzo. El control de seguimiento de la trayectoria en 3D de la aeronave se descompone en el control de altitud y el control de seguimiento de la trayectoria plana, y se establecen los modelos del proceso de decisión de Markov (MDP) de los problemas de control, en los que la escala del espacio de estado se reduce mediante la simplificación de los parámetros y la transformación de las coordenadas. Para garantizar la adaptabilidad del control sin depender de un modelo dinámico preciso de la aeronave, se adopta directamente un algoritmo Q-Learning para el aprendizaje de la política de acción de los comandos de los actuadores, y el controlador se entrena en línea basándose en el movimiento real. Para acelerar el proceso de entrenamiento se emplea una red neuronal de controlador de articulación de modelo cerebeloso (CMAC) para la generalización de la experiencia. Los resultados de la simulación demuestran que los controladores propuestos pueden alcanzar un rendimiento comparable al de los controladores diferenciales integrales de proporción (PID) bien ajustados y tienen una capacidad de decisión más inteligente.
Esta es una versión de prueba de citación de documentos de la Biblioteca Virtual Pro. Puede contener errores. Lo invitamos a consultar los manuales de citación de las respectivas fuentes.
Video:
Aplicaciones de SCADA en el tratamiento de agua
Video:
Webinar: Cómo los sistemas MES ayudan a controlar en remoto las fábricas
Artículo:
LARES: Un nuevo satélite diseñado específicamente para probar la relatividad general
Artículo:
Método de toma de decisiones de interferencia electrónica cognitiva basado en un algoritmo de aprendizaje Q mejorado
Artículo:
Método de diagnóstico de averías para bombas de pozos de petróleo utilizando una red neuronal de función de base radial combinada con un algoritmo genético modificado