El aprendizaje profundo por refuerzo (DRL) se utiliza ampliamente en la planificación de rutas gracias a su potente capacidad de ajuste y aprendizaje de redes neuronales. Sin embargo, los métodos existentes basados en DRL utilizan un espacio de acción discreto y no tienen en cuenta el impacto de la información histórica del estado, lo que provoca que el algoritmo no pueda aprender la estrategia óptima para planificar la ruta, y que la ruta planificada tenga arcos o demasiadas esquinas, lo que no cumple los requisitos reales de navegación del barco. En este trabajo se propone un método de planificación optimizada de trayectorias para buques costeros basado en el algoritmo Deep Deterministic Policy Gradient (DDPG) y el algoritmo Douglas-Peucker (DP) mejorados. En primer lugar, se utiliza la Memoria Larga a Corto Plazo (LSTM) para mejorar la estructura de red del DDPG, que utiliza la información de estado histórica para aproximar la información de estado ambiental actual, de modo que la acción predicha es más precisa. Por otro lado, la función de recompensa tradicional de DDPG puede conducir a una baja eficiencia de aprendizaje y velocidad de convergencia del modelo. Por lo tanto, este trabajo mejora el principio de recompensa del DDPG tradicional a través de la función de recompensa principal y la función de recompensa auxiliar, que no sólo ayuda a planificar una mejor ruta para el barco, sino que también mejora la velocidad de convergencia del modelo. En segundo lugar, teniendo en cuenta el problema de que existen demasiados puntos de giro en la ruta planificada, lo que puede aumentar el riesgo de navegación, se propone un algoritmo de DP mejorado para optimizar aún más la ruta planificada y hacer que la ruta final sea más segura y económica. Por último, se realizan experimentos de simulación para verificar el método propuesto desde el punto de vista del efecto de planificación y la tendencia de convergencia. Los resultados muestran que el método propuesto puede planificar trayectorias de navegación seguras y económicas y tiene buena estabilidad y convergencia.
Esta es una versión de prueba de citación de documentos de la Biblioteca Virtual Pro. Puede contener errores. Lo invitamos a consultar los manuales de citación de las respectivas fuentes.
Informe, reporte:
Infraestructura y desempeño de las exportaciones en la Alianza del Pacífico
Artículo:
Modelo de optimización del sistema integrado de residuos sólidos urbanos mediante programación estocástica de azar y restricciones en condiciones de incertidumbre: Un estudio de caso en Qazvin, Irán
Artículo:
Bucle magnético doble y métodos para calcular su inductancia
Video:
Webinar. Mejora sistémica de la cadena de abastecimiento
Artículo:
Selección de proveedor a través de un modelo multicriterio de dos etapas para la cadena de suministro automotriz sostenible bajo incertidumbre
Artículo:
Creación de empresas y estrategia : reflexiones desde el enfoque de recursos
Libro:
Ergonomía en los sistemas de trabajo
Artículo:
La gestión de las relaciones con los clientes como característica de la alta rentabilidad empresarial
Artículo:
Los web services como herramienta generadora de valor en las organizaciones