En los últimos años, el aprendizaje profundo por refuerzo (DRL, por sus siglas en inglés) ha logrado un gran éxito en muchos campos, especialmente en el ámbito de los juegos, como AlphaGo, AlphaZero y AlphaStar. Sin embargo, debido al problema de escasez de recompensas, el método basado en DRL tradicional muestra un rendimiento limitado en juegos en 3D, los cuales contienen un espacio de estados de dimensiones mucho más altas. Para resolver este problema, en este artículo, proponemos un algoritmo de optimización de políticas basado en recompensas intrínsecas (IBPO, por sus siglas en inglés) para la escasez de recompensas. En el IBPO, se integra una recompensa intrínseca novedosa en la red de valores, la cual proporciona una recompensa adicional en un entorno con recompensa escasa, con el fin de acelerar el entrenamiento. Además, para abordar el problema de sesgo en la estimación de valores, diseñamos tres tipos adicionales de tareas auxiliares, las
Esta es una versión de prueba de citación de documentos de la Biblioteca Virtual Pro. Puede contener errores. Lo invitamos a consultar los manuales de citación de las respectivas fuentes.
Artículos:
Detección de cambios basada en la similitud estadística para imágenes multitemporales de teledetección
Artículos:
Enfoque de garantía de calidad del servicio de confianza para servicios compuestos
Artículos:
Investigación sobre la Estructura de la Red de Ciudades en la Cuenca del Río Amarillo en China basada en el Modelo de Gravedad de Distancia Temporal Bidireccional y el Método de Análisis de Redes Sociales.
Artículos:
Investigación sobre un algoritmo rápido de detección de peatones basado en una red neuronal de autoencoding y AdaBoost.
Artículos:
Confección temprana de ventanas: Un nuevo enfoque para aumentar el número de conexiones TCP atendidas.
Artículos:
La curva S como herramienta para la planeación y control de procesos de construcción: casos de estudio
Artículos:
Investigación sobre control de costos de proyectos de construcción con base en la teoría de construcción sin pérdidas y BIM : caso práctico
Artículos:
Algoritmo de control de desacoplamiento para el sistema de tensión de desenrollado basado en el control activo de rechazo de perturbaciones
Artículos:
Agua subterránea : el recurso oculto