La red Q profunda (DQN) es uno de los algoritmos de aprendizaje por refuerzo más exitosos, pero tiene algunos inconvenientes como la lentitud de convergencia y la inestabilidad. En cambio, los algoritmos tradicionales de aprendizaje por refuerzo con aproximación de funciones lineales suelen tener una convergencia más rápida y una mayor estabilidad, aunque sufren fácilmente la maldición de la dimensionalidad. En los últimos años, se han realizado muchas mejoras en DQN, pero rara vez aprovechan la ventaja de los algoritmos tradicionales para mejorar DQN. En este trabajo, proponemos un nuevo algoritmo de aprendizaje Q con aproximación de funciones lineales, denominado aprendizaje Q recursivo de mínimos cuadrados por lotes (MRLS-Q). A diferencia del algoritmo tradicional de aprendizaje Q con aproximación de función lineal, el mecanismo de aprendizaje y la estructura del modelo de MRLS-Q son más similares a los de DQNs con una sola capa de entrada y una capa de salida lineal. Utiliza la repetición de la experiencia y el modo de entrenamiento por lotes y utiliza los estados del agente en lugar de los pares estado-acción del agente como entradas. Como resultado, puede utilizarse solo para problemas de baja dimensión y puede integrarse perfectamente en DQN como última capa para problemas de alta dimensión. Además, MRLS-Q utiliza nuestra técnica de optimización RLS promedio propuesta, de modo que puede lograr un mejor rendimiento de convergencia tanto si se utiliza solo como si se integra con DQN. Al final de este trabajo, demostramos la efectividad de MRLS-Q en el problema CartPole y en cuatro juegos Atari e investigamos las influencias de sus hiperparámetros experimentalmente.
Esta es una versión de prueba de citación de documentos de la Biblioteca Virtual Pro. Puede contener errores. Lo invitamos a consultar los manuales de citación de las respectivas fuentes.
Artículos:
Implementación de tecnología móvil de posicionamiento de objetivos que integra SINS con mediciones de WSN
Artículos:
Efectos a corto y largo plazo de la Reeducación Postural Global (RPG) en el Dolor Crónico de Espalda Baja: Un Estudio Controlado con Seguimiento de un Año.
Artículos:
Aplicaciones de los nanomateriales para la eliminación de metales pesados del agua y el suelo.
Artículos:
Fiabilidad de la tensión-resistencia para la distribución de Weibull invertida y exponenciada con aplicación a la rotura de la fibra de yute y las fibras de carbono
Artículos:
Evaluación del estado de salud de los hayedos-abetales mediante métodos de teledetección
Artículos:
Comportamiento del aguacate Hass liofilizado durante la operación de rehidratación
Artículos:
Caracterización estructural de la materia orgánica de tres suelos provenientes del municipio de Aquitania-Boyacá, Colombia
Informes y Reportes:
Técnicas de recuperación de suelos contaminados
Artículos:
Una revisión de la etiopatogenia y características clínicas e histopatológicas del melanoma mucoso oral.