Aunque el aprendizaje profundo por refuerzo (DRL) ha logrado un gran éxito en algunos dominios de gran tamaño, la mayoría de los algoritmos relacionados asumen que el estado del sistema subyacente es totalmente observable. Sin embargo, muchos problemas del mundo real son en realidad parcialmente observables. Para los sistemas con observación continua, la mayoría de los algoritmos relacionados, por ejemplo, la red Q profunda (DQN) y la red Q profunda recurrente (DRQN), utilizan observaciones históricas para representar los estados; sin embargo, a menudo hacen que el cálculo sea costoso e ignoran la información de las acciones. Las representaciones predictivas de estado (PSR) pueden ofrecer un marco potente para modelar sistemas dinámicos parcialmente observables con un espacio de estado discreto o continuo, que representa el estado latente utilizando acciones y observaciones completamente observables. En este artículo, presentamos un enfoque DQN basado en un modelo PSR que combina los puntos fuertes del modelo PSR y la planificación DQN. Utilizamos una red recurrente para establecer el modelo PSR recurrente, que puede aprender completamente la dinámica del entorno observable parcialmente continuo. A continuación, el modelo se utiliza para la representación de estados y la actualización de DQN, lo que hace que DQN ya no dependa de un número fijo de observaciones históricas o de una red neuronal recurrente (RNN) para representar estados en el caso de entornos parcialmente observables. El gran rendimiento del enfoque propuesto se demuestra en un conjunto de tareas de control robótico de OpenAI Gym comparando la técnica con la DRQN basada en memoria y las redes de política de estado predictiva recurrente (RPSP) de última generación. El código fuente está disponible en https://github.com/RPSR-DQN/paper-code.git.
Esta es una versión de prueba de citación de documentos de la Biblioteca Virtual Pro. Puede contener errores. Lo invitamos a consultar los manuales de citación de las respectivas fuentes.
Artículos:
Sobre la equivalencia entre dos teoremas de punto fijo para operadores de tipo cóncavo
Artículos:
El Método de Penalización para un Nuevo Sistema de Desigualdades Variacionales Generalizadas
Artículos:
Soluciones racionales y sus soluciones de interacción de la ecuación de Jimbo-Miwa de () dimensiones.
Artículos:
Criterios poco conservadores para el consenso robusto de sistemas multiagente con retrasos, perturbaciones e incertidumbres topológicas
Artículos:
Juego de ubicación-precio para dos jugadores en un mercado radial con costos de transporte lineales.
Artículos:
Comportamiento del aguacate Hass liofilizado durante la operación de rehidratación
Artículos:
Caracterización estructural de la materia orgánica de tres suelos provenientes del municipio de Aquitania-Boyacá, Colombia
Informes y Reportes:
Técnicas de recuperación de suelos contaminados
Artículos:
Una revisión de la etiopatogenia y características clínicas e histopatológicas del melanoma mucoso oral.