La red Q profunda (DQN) es uno de los algoritmos de aprendizaje por refuerzo más exitosos, pero tiene algunos inconvenientes como la lentitud de convergencia y la inestabilidad. En cambio, los algoritmos tradicionales de aprendizaje por refuerzo con aproximación de funciones lineales suelen tener una convergencia más rápida y una mayor estabilidad, aunque sufren fácilmente la maldición de la dimensionalidad. En los últimos años, se han realizado muchas mejoras en DQN, pero rara vez aprovechan la ventaja de los algoritmos tradicionales para mejorar DQN. En este trabajo, proponemos un nuevo algoritmo de aprendizaje Q con aproximación de funciones lineales, denominado aprendizaje Q recursivo de mínimos cuadrados por lotes (MRLS-Q). A diferencia del algoritmo tradicional de aprendizaje Q con aproximación de función lineal, el mecanismo de aprendizaje y la estructura del modelo de MRLS-Q son más similares a los de DQNs con una sola capa de entrada y una capa de salida lineal. Utiliza la repetición de la experiencia y el modo de entrenamiento por lotes y utiliza los estados del agente en lugar de los pares estado-acción del agente como entradas. Como resultado, puede utilizarse solo para problemas de baja dimensión y puede integrarse perfectamente en DQN como última capa para problemas de alta dimensión. Además, MRLS-Q utiliza nuestra técnica de optimización RLS promedio propuesta, de modo que puede lograr un mejor rendimiento de convergencia tanto si se utiliza solo como si se integra con DQN. Al final de este trabajo, demostramos la efectividad de MRLS-Q en el problema CartPole y en cuatro juegos Atari e investigamos las influencias de sus hiperparámetros experimentalmente.
Esta es una versión de prueba de citación de documentos de la Biblioteca Virtual Pro. Puede contener errores. Lo invitamos a consultar los manuales de citación de las respectivas fuentes.
Artículo:
Método de supresión de puntos de salto para codificador magnético multipolar a baja temperatura basado en el ajuste del valor angular unipolar
Artículo:
Micropropagación de la planta Berger, útil industrial y medicinalmente, utilizando esquejes de brotes.
Artículo:
Desigualdades en la esperanza de vida en EE.UU. según el nivel de desempleo por zonas, 1990-2010
Artículo:
Sensibilización mejorada de nanorods de óxido de zinc por puntos cuánticos de telururo de cadmio mediante la generación de superficies hidrofílicas inducida por carga
Artículo:
Nueva plataforma de proceso BCD con tecnología de zanja JTE autoextraíble integrada para circuitos integrados de controladores EL
Artículo:
Creación de empresas y estrategia : reflexiones desde el enfoque de recursos
Artículo:
Los web services como herramienta generadora de valor en las organizaciones
Artículo:
La gestión de las relaciones con los clientes como característica de la alta rentabilidad empresarial
Libro:
Ergonomía en los sistemas de trabajo