Los algoritmos de aprendizaje por refuerzo basados en el gradiente de la política pueden caer en el óptimo local debido a la desaparición del gradiente durante el proceso de actualización, lo que a su vez afecta a la capacidad de exploración del agente de aprendizaje por refuerzo. Para resolver el problema anterior, en este trabajo se combinan el método de entropía cruzada (CEM) en la política de evolución, la máxima diferencia de medias (MMD) y el algoritmo de gradiente de política determinista profunda con retardo (TD3) para proponer un algoritmo de aprendizaje de refuerzo profundo de política evolutiva de diversidad (DEPRL). Utilizando la discrepancia media máxima como medida de la distancia entre las diferentes políticas, algunas de las políticas de la población maximizan la distancia entre ellas y la generación anterior de políticas al tiempo que maximizan el retorno acumulativo durante la actualización del gradiente. Además, la combinación de los rendimientos acumulados y la distancia entre políticas como aptitud de la población fomenta una mayor diversidad en las políticas descendientes, lo que a su vez puede reducir el riesgo de caer en óptimos locales debido a la desaparición del gradiente. Los resultados en el entorno de prueba MuJoCo muestran que DEPRL ha logrado un excelente rendimiento en tareas de control continuo; especialmente en el entorno Ant-v2, el rendimiento de DEPRL alcanzó finalmente una mejora de casi el 20% en comparación con TD3.
Esta es una versión de prueba de citación de documentos de la Biblioteca Virtual Pro. Puede contener errores. Lo invitamos a consultar los manuales de citación de las respectivas fuentes.
Artículo:
Efecto de la fatiga muscular en la estimación de la fuerza de agarre de la mano basada en la electromiografía de superficie
Artículo:
Estudio de biocompatibilidad de la mezcla de poli(L-ácido-láctico)/triol de policaprolactona
Artículo:
Levaduras diseñadas para la industria de la fermentación del siglo XXI
Artículo:
Niveles de fluoruro salival después del uso de dentífrico con alto contenido de flúor.
Artículo:
Extensión de la superficie de los materiales como resultado del equilibrio químico
Artículo:
Creación de empresas y estrategia : reflexiones desde el enfoque de recursos
Libro:
Ergonomía en los sistemas de trabajo
Artículo:
La gestión de las relaciones con los clientes como característica de la alta rentabilidad empresarial
Artículo:
Los web services como herramienta generadora de valor en las organizaciones