La explosión exponencial de acciones conjuntas y la recopilación masiva de datos son dos retos principales en los algoritmos de aprendizaje de refuerzo multiagente con entrenamiento centralizado. Para superar estos problemas, en este trabajo proponemos un algoritmo de aprendizaje de refuerzo multiagente actor-crítico libre de modelos y totalmente descentralizado basado en la difusión de mensajes. Para ello, se supone que los agentes están situados en una red de comunicación variable en el tiempo. Cada agente realiza observaciones limitadas sobre el estado global y las acciones conjuntas, por lo que necesita obtener y compartir información con los demás a través de la red. En el algoritmo propuesto, los agentes mantienen estimaciones locales del estado global y las acciones conjuntas y las actualizan con observaciones locales y los mensajes recibidos de sus vecinos. Bajo la hipótesis de la descomposición del valor global, se deriva el gradiente de la función objetivo global para un agente individual. La convergencia del algoritmo propuesto con aproximación lineal de funciones está garantizada según la teoría de aproximación estocástica. En los experimentos, el algoritmo propuesto se aplicó a un entorno multiagente de tarea de localización pasiva y consiguió un rendimiento superior al de los algoritmos más avanzados.
Esta es una versión de prueba de citación de documentos de la Biblioteca Virtual Pro. Puede contener errores. Lo invitamos a consultar los manuales de citación de las respectivas fuentes.
Artículo:
Congelación de ovocitos y su efecto en el desplazamiento del huso meiótico: Comunicación breve
Artículo:
Aplicación de la tecnología de interacción persona-ordenador de realidad virtual basada en el sensor en la enseñanza del inglés
Artículo:
Medición del espesor de películas delgadas nanométricas de VO mediante un FRX portátil
Artículo:
Propiedades Eléctricas y Dieléctricas de Nanocompuestos de Polianilina y Polianilina/Montmorillonita Preparados por Reacción Sólida Mediante Espectroscopía de Impedancia
Artículo:
Propiedades de ultra tracción y tenacidad final de fibras compuestas de polietileno de peso molecular ultra alto rellenas de partículas de nanosílice con superficies específicas variables
Artículo:
Creación de empresas y estrategia : reflexiones desde el enfoque de recursos
Artículo:
La gestión de las relaciones con los clientes como característica de la alta rentabilidad empresarial
Artículo:
Análisis socioeconómico de la problemática de los desechos plásticos en el mar
Artículo:
Los web services como herramienta generadora de valor en las organizaciones