Proponemos un algoritmo de aprendizaje Q cooperativo multiagente llamado explorando acciones según las proporciones de los valores Q (EAQR). Nuestro objetivo es diseñar un algoritmo de aprendizaje por refuerzo multiagente para tareas cooperativas donde múltiples agentes necesitan coordinar su comportamiento para lograr el mejor rendimiento del sistema. En EAQR, el valor Q representa la probabilidad de obtener la recompensa máxima, mientras que cada acción se selecciona según la proporción de su valor Q respecto a la suma de todos los valores Q de las acciones y la tasa de exploración. Se utilizan siete juegos cooperativos repetidos como casos de estudio para analizar la dinámica de EAQR. Los análisis teóricos muestran que en algunos casos las estrategias conjuntas óptimas corresponden a los puntos críticos estables de EAQR. Además, se realizan experimentos de comparación en juegos estocásticos con pasos finitos. Uno es el empuje de cajas, y el otro es el problema de la red de sensores distribuidos. Los resultados experimentales
Esta es una versión de prueba de citación de documentos de la Biblioteca Virtual Pro. Puede contener errores. Lo invitamos a consultar los manuales de citación de las respectivas fuentes.
Artículo:
Estudio de técnicas de extracción de palabras clave para el dominio de los capacitores de doble capa eléctrica utilizando índices de similitud de texto: Un análisis experimental
Artículo:
Un enfoque de descubrimiento de rutas de ataque basado en la planificación automática de redes de TI a OT
Artículo:
La optimización de un sistema virtual de producción-inventario dual bajo el riesgo dinámico de interrupción del suministro.
Artículo:
Estudio de Arte de Medios de Pintura Digital Basado en Redes Inalámbricas
Artículo:
Marco de análisis de factores de agilidad en organizaciones orientadas a proyectos a través de un enfoque de sostenibilidad en el estudio de caso de proyectos grandes: Municipio de Isfahán.