Este trabajo propone un nuevo algoritmo de aprendizaje reforzado multiagente (MARL) Nash-Q learning con regret matching, en el que el regret matching se utiliza para acelerar el conocido algoritmo MARL Nash-Q learning. Es fundamental que la elección de una estrategia adecuada para la selección de acciones para armonizar la relación entre la exploración y la explotación para mejorar la capacidad de aprendizaje en línea para el aprendizaje Nash-Q. En el Juego de Markov, la acción conjunta de los agentes que adoptan el algoritmo de igualación de arrepentimiento puede converger a un grupo de puntos de no arrepentimiento que pueden considerarse un equilibrio correlacionado grueso que incluye el equilibrio de Nash en esencia. Puede deducirse que el emparejamiento de arrepentimiento puede guiar la exploración del espacio estado-acción de modo que la tasa de convergencia del algoritmo de aprendizaje Nash-Q puede incrementarse. Los resultados de la simulación en el robot de fútbol validan que, en comparación con el algoritmo de aprendizaje Nash-Q original, el uso de la coincidencia de arrepentimiento durante la fase de aprendizaje de Nash-Q tiene una excelente capacidad de aprendizaje en línea y da lugar a un rendimiento significativo en términos de puntuación, recompensa media y convergencia de políticas.
Esta es una versión de prueba de citación de documentos de la Biblioteca Virtual Pro. Puede contener errores. Lo invitamos a consultar los manuales de citación de las respectivas fuentes.
Artículos:
RMSE-ELM: Conjunto selectivo de máquinas de aprendizaje extremo basado en modelos recursivos para la mejora de la robustez
Artículos:
Predicción de series temporales de manchas solares basada en la descomposición modal empírica conjunta complementaria y la red neuronal de ondículas
Artículos:
Teoremas de Aproximación para Funciones de Dos Variables a través de -Convergencia
Artículos:
Control directo autorreparador para sistemas de actitud de helicópteros cuadrotor
Artículos:
Repercusiones del coste del transporte en los problemas de los repartidores de periódicos sin distribución
Artículos:
Comportamiento del aguacate Hass liofilizado durante la operación de rehidratación
Artículos:
Caracterización estructural de la materia orgánica de tres suelos provenientes del municipio de Aquitania-Boyacá, Colombia
Informes y Reportes:
Técnicas de recuperación de suelos contaminados
Artículos:
Una revisión de la etiopatogenia y características clínicas e histopatológicas del melanoma mucoso oral.