El objetivo principal del aprendizaje por refuerzo multiagente es lograr una política óptima global. Es difícil evaluar la función de valor con un espacio de estados de alta dimensionalidad. Por lo tanto, transferimos el problema del aprendizaje por refuerzo multiagente a un problema de optimización distribuida con términos de restricción. En este problema, todos los agentes comparten el espacio de estados y acciones, pero cada agente solo obtiene su propia recompensa local. Luego, proponemos una optimización distribuida con dinámicas de orden fraccionario para resolver este problema. Además, demostramos la convergencia del algoritmo propuesto e ilustramos su efectividad con un ejemplo numérico.
Esta es una versión de prueba de citación de documentos de la Biblioteca Virtual Pro. Puede contener errores. Lo invitamos a consultar los manuales de citación de las respectivas fuentes.
Artículo:
Un Estudio Comparativo de Tres Parámetros de Resolución de Grafos
Artículo:
Análisis basado en algoritmo de eliminación de ruido de Máquina de Aprendizaje Extremo de la imagen ultrasónica tridimensional transvaginal para el efecto diagnóstico de la adherencia intrauterina.
Artículo:
Un Oscilador Caótico Basado en Meminductor, Memcapacitor y Memristor
Artículo:
Relay Positioning Strategy for Traffic Data Collection of Multiple Unmanned Aerial Vehicles Using Hybrid Optimization Systems: Un estudio de caso basado en FANET
Artículo:
Aprovechando el Modelo de Atención de Gráfico Basado en Relaciones Sociales para la Recomendación de Eventos en Grupo
Artículo:
Creación de empresas y estrategia : reflexiones desde el enfoque de recursos
Libro:
Ergonomía en los sistemas de trabajo
Artículo:
La gestión de las relaciones con los clientes como característica de la alta rentabilidad empresarial
Artículo:
Los web services como herramienta generadora de valor en las organizaciones