Este trabajo propone un nuevo algoritmo de aprendizaje reforzado multiagente (MARL) Nash-Q learning con regret matching, en el que el regret matching se utiliza para acelerar el conocido algoritmo MARL Nash-Q learning. Es fundamental que la elección de una estrategia adecuada para la selección de acciones para armonizar la relación entre la exploración y la explotación para mejorar la capacidad de aprendizaje en línea para el aprendizaje Nash-Q. En el Juego de Markov, la acción conjunta de los agentes que adoptan el algoritmo de igualación de arrepentimiento puede converger a un grupo de puntos de no arrepentimiento que pueden considerarse un equilibrio correlacionado grueso que incluye el equilibrio de Nash en esencia. Puede deducirse que el emparejamiento de arrepentimiento puede guiar la exploración del espacio estado-acción de modo que la tasa de convergencia del algoritmo de aprendizaje Nash-Q puede incrementarse. Los resultados de la simulación en el robot de fútbol validan que, en comparación con el algoritmo de aprendizaje Nash-Q original, el uso de la coincidencia de arrepentimiento durante la fase de aprendizaje de Nash-Q tiene una excelente capacidad de aprendizaje en línea y da lugar a un rendimiento significativo en términos de puntuación, recompensa media y convergencia de políticas.
Esta es una versión de prueba de citación de documentos de la Biblioteca Virtual Pro. Puede contener errores. Lo invitamos a consultar los manuales de citación de las respectivas fuentes.
Artículo:
Una nota sobre la ergodicidad de sistemas con la propiedad de sombreado promedio asintótico.
Artículo:
Más resultados sobre derivaciones de bigrupoides clasificados.
Artículo:
Teoría Analítica del Problema de Hill al Orden Cuatro: Aplicación al cálculo de órbitas congeladas alrededor de satélites planetarios
Artículo:
Principios Variacionales No Locales con Crecimiento Variable
Artículo:
Aproximación Numérica para la Ecuación de Transporte de Neutrones Fraccionarios