Biblioteca122.739 documentos en línea

Artículo

Diversity Evolutionary Policy Deep Reinforcement LearningDiversidad Política evolutiva Aprendizaje profundo por refuerzo

Resumen

Los algoritmos de aprendizaje por refuerzo basados en el gradiente de la política pueden caer en el óptimo local debido a la desaparición del gradiente durante el proceso de actualización, lo que a su vez afecta a la capacidad de exploración del agente de aprendizaje por refuerzo. Para resolver el problema anterior, en este trabajo se combinan el método de entropía cruzada (CEM) en la política de evolución, la máxima diferencia de medias (MMD) y el algoritmo de gradiente de política determinista profunda con retardo (TD3) para proponer un algoritmo de aprendizaje de refuerzo profundo de política evolutiva de diversidad (DEPRL). Utilizando la discrepancia media máxima como medida de la distancia entre las diferentes políticas, algunas de las políticas de la población maximizan la distancia entre ellas y la generación anterior de políticas al tiempo que maximizan el retorno acumulativo durante la actualización del gradiente. Además, la combinación de los rendimientos acumulados y la distancia entre políticas como aptitud de la población fomenta una mayor diversidad en las políticas descendientes, lo que a su vez puede reducir el riesgo de caer en óptimos locales debido a la desaparición del gradiente. Los resultados en el entorno de prueba MuJoCo muestran que DEPRL ha logrado un excelente rendimiento en tareas de control continuo; especialmente en el entorno Ant-v2, el rendimiento de DEPRL alcanzó finalmente una mejora de casi el 20% en comparación con TD3.

  • Tipo de documento:
  • Formato:pdf
  • Idioma:Inglés
  • Tamaño: Kb

Cómo citar el documento

Esta es una versión de prueba de citación de documentos de la Biblioteca Virtual Pro. Puede contener errores. Lo invitamos a consultar los manuales de citación de las respectivas fuentes.

Este contenido no est� disponible para su tipo de suscripci�n

Información del documento