En los últimos años, el aprendizaje profundo por refuerzo (DRL, por sus siglas en inglés) ha logrado un gran éxito en muchos campos, especialmente en el ámbito de los juegos, como AlphaGo, AlphaZero y AlphaStar. Sin embargo, debido al problema de escasez de recompensas, el método basado en DRL tradicional muestra un rendimiento limitado en juegos en 3D, los cuales contienen un espacio de estados de dimensiones mucho más altas. Para resolver este problema, en este artículo, proponemos un algoritmo de optimización de políticas basado en recompensas intrínsecas (IBPO, por sus siglas en inglés) para la escasez de recompensas. En el IBPO, se integra una recompensa intrínseca novedosa en la red de valores, la cual proporciona una recompensa adicional en un entorno con recompensa escasa, con el fin de acelerar el entrenamiento. Además, para abordar el problema de sesgo en la estimación de valores, diseñamos tres tipos adicionales de tareas auxiliares, las
Esta es una versión de prueba de citación de documentos de la Biblioteca Virtual Pro. Puede contener errores. Lo invitamos a consultar los manuales de citación de las respectivas fuentes.
Artículo:
Sobre la Respuesta Conductual del Flujo de Estrujamiento 3D de Nanofluidos en un Canal Giratorio
Artículo:
Redes de transferencia de riesgos asimétricos y conductor de contagio de riesgos en los mercados financieros chinos: La perspectiva de la incertidumbre de la política económica.
Artículo:
Análisis de correlación gris del crecimiento económico y la competitividad de la industria cultural
Artículo:
Evaluación del tráfico de pasajeros y formación de precios en el mercado de servicios de transporte
Artículo:
Dinámica de opiniones con aprendizaje bayesiano