Biblioteca122.294 documentos en línea

Artículo

Efficient Actor-Critic Algorithm with Hierarchical Model Learning and PlanningAlgoritmo eficiente de crítica de actores con aprendizaje y planificación de modelos jerárquicos

Resumen

Para mejorar la tasa de convergencia y la eficiencia de la muestra, se proponen dos métodos de aprendizaje eficientes AC-HMLP y RAC-HMLP (AC-HMLP con l 2 -regularización) combinando el algoritmo actor-crítico con el aprendizaje de modelos jerárquicos y la planificación. Los modelos jerárquicos consistentes en los modelos local y global, que se aprenden al mismo tiempo durante el aprendizaje de la función de valor y la política, se aproximan mediante regresión lineal local (LLR) y aproximación de funciones lineales (LFA), respectivamente. Tanto el modelo local como el modelo global se aplican para generar muestras para la planificación; el primero se utiliza sólo si el error de predicción del estado no supera el umbral en cada paso de tiempo, mientras que el segundo se utiliza al final de cada episodio. El propósito de tomar ambos modelos es mejorar la eficiencia de las muestras y acelerar la tasa de convergencia de todo el algoritmo mediante la utilización completa de la información local y global. Experimentalmente, AC-HMLP y RAC-HMLP se comparan con tres algoritmos representativos en dos problemas de referencia de aprendizaje por refuerzo (RL). Los resultados demuestran que son los que mejor se comportan en términos de tasa de convergencia y eficiencia de la muestra.

  • Tipo de documento:
  • Formato:pdf
  • Idioma:Inglés
  • Tamaño: Kb

Cómo citar el documento

Esta es una versión de prueba de citación de documentos de la Biblioteca Virtual Pro. Puede contener errores. Lo invitamos a consultar los manuales de citación de las respectivas fuentes.

Este contenido no est� disponible para su tipo de suscripci�n

Información del documento