Estudiamos un problema de control de red de colas en línea multi-origen y multi-destino caracterizado por una estructura de red autoorganizadora y enrutamiento de trabajos autoorganizador. Descomponemos el problema de control de red de colas autoorganizadoras en una serie de Procesos de Decisión de Markov interrelacionados y construimos un modelo de decisión de control para ellos basado en la arquitectura de aprendizaje por refuerzo acoplado (RL). Para maximizar el rendimiento promedio ponderado del tiempo de los trabajos a través de la red, proponemos un algoritmo de aprendizaje por refuerzo con recompensa promedio en el tiempo para manejar el modelo de decisión de control y obtener una política de control que integre la estrategia de selección de enrutamiento de trabajos y la estrategia de secuenciación de trabajos. Experimentos computacionales verifican la capacidad de aprendizaje y la efectividad del algoritmo de aprendizaje por refuerzo propuesto aplicado en el problema de control de red autoorganizadora investigado.
Esta es una versión de prueba de citación de documentos de la Biblioteca Virtual Pro. Puede contener errores. Lo invitamos a consultar los manuales de citación de las respectivas fuentes.
Artículo:
Estabilización del circuito caótico de Chua de orden fraccional a través de la derivada de Caputo de una sola entrada
Artículo:
Múltiples soluciones positivas de problemas singulares no lineales de Sturm-Liouville con término perturbado de Carathéodory.
Artículo:
Respuesta sísmica de un puente colgante de tres torres de gran longitud ante un movimiento aleatorio del terreno
Artículo:
Teorema de Convergencia para una Familia de un Nuevo Método de Halley Modificado en Espacio de Banach
Artículo:
Análisis de la dinámica de un modelo de propagación de rumores con retraso en un entorno afectado por una emergencia