Biblioteca122.739 documentos en línea

Artículo

AIBPO: Combine the Intrinsic Reward and Auxiliary Task for 3D Strategy GameAIBPO: Combina la Recompensa Intrínseca y la Tarea Auxiliar para Juego de Estrategia en 3D

Resumen

En los últimos años, el aprendizaje profundo por refuerzo (DRL, por sus siglas en inglés) ha logrado un gran éxito en muchos campos, especialmente en el ámbito de los juegos, como AlphaGo, AlphaZero y AlphaStar. Sin embargo, debido al problema de escasez de recompensas, el método basado en DRL tradicional muestra un rendimiento limitado en juegos en 3D, los cuales contienen un espacio de estados de dimensiones mucho más altas. Para resolver este problema, en este artículo, proponemos un algoritmo de optimización de políticas basado en recompensas intrínsecas (IBPO, por sus siglas en inglés) para la escasez de recompensas. En el IBPO, se integra una recompensa intrínseca novedosa en la red de valores, la cual proporciona una recompensa adicional en un entorno con recompensa escasa, con el fin de acelerar el entrenamiento. Además, para abordar el problema de sesgo en la estimación de valores, diseñamos tres tipos adicionales de tareas auxiliares, las

  • Tipo de documento:
  • Formato:pdf
  • Idioma:Inglés
  • Tamaño: Kb

Cómo citar el documento

Esta es una versión de prueba de citación de documentos de la Biblioteca Virtual Pro. Puede contener errores. Lo invitamos a consultar los manuales de citación de las respectivas fuentes.

Este contenido no est� disponible para su tipo de suscripci�n

Información del documento