Biblioteca122.739 documentos en línea

Artículo

Distributed Policy Evaluation with Fractional Order Dynamics in Multiagent Reinforcement LearningEvaluación distribuida de políticas con dinámica de orden fraccionario en el aprendizaje por refuerzo multiagente

Resumen

El objetivo principal del aprendizaje por refuerzo multiagente es lograr una política óptima global. Es difícil evaluar la función de valor con un espacio de estados de alta dimensionalidad. Por lo tanto, transferimos el problema del aprendizaje por refuerzo multiagente a un problema de optimización distribuida con términos de restricción. En este problema, todos los agentes comparten el espacio de estados y acciones, pero cada agente solo obtiene su propia recompensa local. Luego, proponemos una optimización distribuida con dinámicas de orden fraccionario para resolver este problema. Además, demostramos la convergencia del algoritmo propuesto e ilustramos su efectividad con un ejemplo numérico.

  • Tipo de documento:
  • Formato:pdf
  • Idioma:Inglés
  • Tamaño: Kb

Cómo citar el documento

Esta es una versión de prueba de citación de documentos de la Biblioteca Virtual Pro. Puede contener errores. Lo invitamos a consultar los manuales de citación de las respectivas fuentes.

Este contenido no est� disponible para su tipo de suscripci�n

Información del documento