Biblioteca122.294 documentos en línea

Artículo

Multiagent Reinforcement Learning with Regret Matching for Robot SoccerAprendizaje por refuerzo multiagente con Regret Matching para robots futbolistas

Resumen

Este trabajo propone un nuevo algoritmo de aprendizaje reforzado multiagente (MARL) Nash-Q learning con regret matching, en el que el regret matching se utiliza para acelerar el conocido algoritmo MARL Nash-Q learning. Es fundamental que la elección de una estrategia adecuada para la selección de acciones para armonizar la relación entre la exploración y la explotación para mejorar la capacidad de aprendizaje en línea para el aprendizaje Nash-Q. En el Juego de Markov, la acción conjunta de los agentes que adoptan el algoritmo de igualación de arrepentimiento puede converger a un grupo de puntos de no arrepentimiento que pueden considerarse un equilibrio correlacionado grueso que incluye el equilibrio de Nash en esencia. Puede deducirse que el emparejamiento de arrepentimiento puede guiar la exploración del espacio estado-acción de modo que la tasa de convergencia del algoritmo de aprendizaje Nash-Q puede incrementarse. Los resultados de la simulación en el robot de fútbol validan que, en comparación con el algoritmo de aprendizaje Nash-Q original, el uso de la coincidencia de arrepentimiento durante la fase de aprendizaje de Nash-Q tiene una excelente capacidad de aprendizaje en línea y da lugar a un rendimiento significativo en términos de puntuación, recompensa media y convergencia de políticas.

  • Tipo de documento:
  • Formato:pdf
  • Idioma:Inglés
  • Tamaño: Kb

Cómo citar el documento

Esta es una versión de prueba de citación de documentos de la Biblioteca Virtual Pro. Puede contener errores. Lo invitamos a consultar los manuales de citación de las respectivas fuentes.

Este contenido no est� disponible para su tipo de suscripci�n

Información del documento