En los últimos años, el aprendizaje profundo por refuerzo (DRL, por sus siglas en inglés) ha logrado un gran éxito en muchos campos, especialmente en el ámbito de los juegos, como AlphaGo, AlphaZero y AlphaStar. Sin embargo, debido al problema de escasez de recompensas, el método basado en DRL tradicional muestra un rendimiento limitado en juegos en 3D, los cuales contienen un espacio de estados de dimensiones mucho más altas. Para resolver este problema, en este artículo, proponemos un algoritmo de optimización de políticas basado en recompensas intrínsecas (IBPO, por sus siglas en inglés) para la escasez de recompensas. En el IBPO, se integra una recompensa intrínseca novedosa en la red de valores, la cual proporciona una recompensa adicional en un entorno con recompensa escasa, con el fin de acelerar el entrenamiento. Además, para abordar el problema de sesgo en la estimación de valores, diseñamos tres tipos adicionales de tareas auxiliares, las
Esta es una versión de prueba de citación de documentos de la Biblioteca Virtual Pro. Puede contener errores. Lo invitamos a consultar los manuales de citación de las respectivas fuentes.
Artículo:
Demadroid: Detección de malware basada en gráficos de referencia de objetos en Android
Artículo:
SIFO: Infraestructura Computacional Segura Utilizando Superposiciones de FPGA
Artículo:
Un Método de Detección de Defectos en la Superficie de Materiales Metálicos Basado en un Dispositivo de Excitación de Pulso Ultrasónico Adaptativo y Tecnología de Imágenes Térmicas Infrarrojas
Artículo:
Nuevas topologías generales de compuertas de umbral basadas en RTD y aplicación a compuertas lógicas XOR de tres entradas
Artículo:
Optimización por enjambre de partículas para la estimación de canales MIMO
Artículo:
Creación de empresas y estrategia : reflexiones desde el enfoque de recursos
Artículo:
La gestión de las relaciones con los clientes como característica de la alta rentabilidad empresarial
Artículo:
Análisis socioeconómico de la problemática de los desechos plásticos en el mar
Artículo:
Los web services como herramienta generadora de valor en las organizaciones