Biblioteca122.739 documentos en línea

Artículo

Minibatch Recursive Least Squares Q-LearningAprendizaje Q de mínimos cuadrados recursivos por lotes

Resumen

La red Q profunda (DQN) es uno de los algoritmos de aprendizaje por refuerzo más exitosos, pero tiene algunos inconvenientes como la lentitud de convergencia y la inestabilidad. En cambio, los algoritmos tradicionales de aprendizaje por refuerzo con aproximación de funciones lineales suelen tener una convergencia más rápida y una mayor estabilidad, aunque sufren fácilmente la maldición de la dimensionalidad. En los últimos años, se han realizado muchas mejoras en DQN, pero rara vez aprovechan la ventaja de los algoritmos tradicionales para mejorar DQN. En este trabajo, proponemos un nuevo algoritmo de aprendizaje Q con aproximación de funciones lineales, denominado aprendizaje Q recursivo de mínimos cuadrados por lotes (MRLS-Q). A diferencia del algoritmo tradicional de aprendizaje Q con aproximación de función lineal, el mecanismo de aprendizaje y la estructura del modelo de MRLS-Q son más similares a los de DQNs con una sola capa de entrada y una capa de salida lineal. Utiliza la repetición de la experiencia y el modo de entrenamiento por lotes y utiliza los estados del agente en lugar de los pares estado-acción del agente como entradas. Como resultado, puede utilizarse solo para problemas de baja dimensión y puede integrarse perfectamente en DQN como última capa para problemas de alta dimensión. Además, MRLS-Q utiliza nuestra técnica de optimización RLS promedio propuesta, de modo que puede lograr un mejor rendimiento de convergencia tanto si se utiliza solo como si se integra con DQN. Al final de este trabajo, demostramos la efectividad de MRLS-Q en el problema CartPole y en cuatro juegos Atari e investigamos las influencias de sus hiperparámetros experimentalmente.

  • Tipo de documento:
  • Formato:pdf
  • Idioma:Inglés
  • Tamaño: Kb

Cómo citar el documento

Esta es una versión de prueba de citación de documentos de la Biblioteca Virtual Pro. Puede contener errores. Lo invitamos a consultar los manuales de citación de las respectivas fuentes.

Este contenido no est� disponible para su tipo de suscripci�n

Información del documento