Para mejorar la tasa de convergencia y la eficiencia de la muestra, se proponen dos métodos de aprendizaje eficientes AC-HMLP y RAC-HMLP (AC-HMLP con l 2 -regularización) combinando el algoritmo actor-crítico con el aprendizaje de modelos jerárquicos y la planificación. Los modelos jerárquicos consistentes en los modelos local y global, que se aprenden al mismo tiempo durante el aprendizaje de la función de valor y la política, se aproximan mediante regresión lineal local (LLR) y aproximación de funciones lineales (LFA), respectivamente. Tanto el modelo local como el modelo global se aplican para generar muestras para la planificación; el primero se utiliza sólo si el error de predicción del estado no supera el umbral en cada paso de tiempo, mientras que el segundo se utiliza al final de cada episodio. El propósito de tomar ambos modelos es mejorar la eficiencia de las muestras y acelerar la tasa de convergencia de todo el algoritmo mediante la utilización completa de la información local y global. Experimentalmente, AC-HMLP y RAC-HMLP se comparan con tres algoritmos representativos en dos problemas de referencia de aprendizaje por refuerzo (RL). Los resultados demuestran que son los que mejor se comportan en términos de tasa de convergencia y eficiencia de la muestra.
Esta es una versión de prueba de citación de documentos de la Biblioteca Virtual Pro. Puede contener errores. Lo invitamos a consultar los manuales de citación de las respectivas fuentes.
Artículo:
Nuevo resultado de funciones analíticas relacionadas con la función zeta de Hurwitz
Artículo:
Mejora de la actividad antimicrobiana del compuesto de carbono y gelatina mediante Ce(III)
Artículo:
Revisión sobre la Evaluación del Riesgo de Metales Pesados en Almejas Malasias
Artículo:
Potencial antimicrobiano de extractos de hojas y tallos de un bambú nativo de la Amazonia
Artículo:
Microphase Separation of a PS-b-PFS Block Copolymer via Solvent Annealing: Efecto del disolvente, el sustrato y el tiempo de exposición en la morfología