Con el desarrollo de la tecnología de los vehículos aéreos no tripulados (UAV), el enfrentamiento de los enjambres de UAV ha atraído la atención de muchos investigadores. Sin embargo, la situación a la que se enfrenta el enjambre de UAV tiene una incertidumbre sustancial y una variabilidad dinámica. El espacio de estado y el espacio de acción aumentan exponencialmente con el número de UAV, por lo que la toma de decisiones autónoma se convierte en un problema difícil en el entorno de confrontación. En este trabajo se propone un método de aprendizaje por refuerzo multiagente con macroacción y experiencia humana para la toma de decisiones autónoma de los UAV. En el enfoque propuesto, el enjambre de UAVs se modela como un gran sistema multiagente (MAS) con un UAV individual como agente, y el problema de toma de decisiones secuencial en la confrontación del enjambre se modela como un proceso de decisión de Markov. Los agentes del método propuesto se entrenan basándose en las macroacciones, donde se superan eficazmente las recompensas escasas y retrasadas, el gran espacio de estado y el espacio de acción. La clave del éxito de este método es la generación de las macroacciones que permiten a la política de alto nivel encontrar una solución casi óptima. En este trabajo, aprovechamos además la experiencia humana para diseñar un conjunto de buenas macroacciones. Extensos experimentos empíricos en nuestro entorno de confrontación de enjambre construido muestran que nuestro método rinde mejor que los demás algoritmos.
Esta es una versión de prueba de citación de documentos de la Biblioteca Virtual Pro. Puede contener errores. Lo invitamos a consultar los manuales de citación de las respectivas fuentes.
Artículo:
Análisis de la posibilidad de estimación de la propiedad ecológica de escoria con el uso de la base de datos
Artículo:
Dispositivo flexible de ondas acústicas de superficie con película de AlN sobre sustrato polimérico
Video:
Conceptos básicos sobre Controladores Lógicos Programables
Artículo:
Aumentando el rendimiento de combustible de sistemas de pilas de combustible de metanol con control anticipativo de la concentración operativa
Artículo:
Un sistema de gestión de la energía basado en reglas para un sistema experimental de almacenamiento de energía híbrido batería/supercondensador para vehículos eléctricos