En futuras redes celulares heterogéneas con celdas pequeñas, como D2D y relay, la coordinación de interferencias entre las células macro y las células pequeñas debe abordarse a través de una asignación eficaz de recursos y control de potencia. El juego de Stackelberg de dos pasos es un modelo ampliamente utilizado y factible para la formulación del problema de asignación de recursos y control de potencia. Tanto en los juegos de seguidores para las células pequeñas como en los juegos de líder para la célula macro, los parámetros de costo son una variable crítica para el rendimiento del juego de Stackelberg. Estudios previos no han abordado adecuadamente la optimización de los parámetros de costo. Este documento presenta un enfoque de aprendizaje por refuerzo para entrenar de manera efectiva los parámetros de costo para un mejor rendimiento del sistema. Además, se propone un algoritmo de preentrenamiento de dos etapas más epsilon-greedy para acelerar la convergencia del aprendizaje por refuerzo. Los resultados de la simulación pueden demostrar
Esta es una versión de prueba de citación de documentos de la Biblioteca Virtual Pro. Puede contener errores. Lo invitamos a consultar los manuales de citación de las respectivas fuentes.
Artículo:
FAS: Uso de FPGA para acelerar y proteger los conmutadores de software SDN
Artículo:
Estrategia de Desvío de Tareas de Computación en el Borde Cooperativo para la Internet de las Cosas Urbana
Artículo:
Un algoritmo basado en la influencia para predecir relaciones invisibles.
Artículo:
Optimal Timing Selection Approach to Moving Target Defense: Un modelo de juego de ataque y defensa FlipIt
Artículo:
El Costo Hundido y el Modelo de Valoración de Opción Real