Los algoritmos de aprendizaje por refuerzo basados en el gradiente de la política pueden caer en el óptimo local debido a la desaparición del gradiente durante el proceso de actualización, lo que a su vez afecta a la capacidad de exploración del agente de aprendizaje por refuerzo. Para resolver el problema anterior, en este trabajo se combinan el método de entropía cruzada (CEM) en la política de evolución, la máxima diferencia de medias (MMD) y el algoritmo de gradiente de política determinista profunda con retardo (TD3) para proponer un algoritmo de aprendizaje de refuerzo profundo de política evolutiva de diversidad (DEPRL). Utilizando la discrepancia media máxima como medida de la distancia entre las diferentes políticas, algunas de las políticas de la población maximizan la distancia entre ellas y la generación anterior de políticas al tiempo que maximizan el retorno acumulativo durante la actualización del gradiente. Además, la combinación de los rendimientos acumulados y la distancia entre políticas como aptitud de la población fomenta una mayor diversidad en las políticas descendientes, lo que a su vez puede reducir el riesgo de caer en óptimos locales debido a la desaparición del gradiente. Los resultados en el entorno de prueba MuJoCo muestran que DEPRL ha logrado un excelente rendimiento en tareas de control continuo; especialmente en el entorno Ant-v2, el rendimiento de DEPRL alcanzó finalmente una mejora de casi el 20% en comparación con TD3.
Esta es una versión de prueba de citación de documentos de la Biblioteca Virtual Pro. Puede contener errores. Lo invitamos a consultar los manuales de citación de las respectivas fuentes.
Artículo:
Corrección ionosférica basada en la ingestión de mapas ionosféricos globales en el modelo NeQuick 2.
Artículo:
The Effect of Kinesiology Taping on the Hemiplegic Shoulder Pain: A Randomized Controlled Trial (Efecto del vendaje kinesiológico en el dolor de hombro hemipléjico: un ensayo controlado aleatorizado).
Artículo:
Importancia de la competencia emocional en el diseño de un plan de estudios de educación antidrogas para estudiantes de secundaria en Hong Kong
Artículo:
Simulación de una matriz de transductores acústicos electromagnéticos mediante el método analítico y FDTD
Artículo:
La liraglutida activa la vía antioxidante Nrf2/HO-1 y protege las células nerviosas del cerebro contra la isquemia cerebral en ratas diabéticas