El aprendizaje profundo por refuerzo es un tipo de algoritmo de aprendizaje automático que utiliza la recompensa acumulativa máxima para aprender la estrategia óptima. La dificultad radica en cómo garantizar la rápida convergencia del modelo y generar una gran cantidad de datos de muestra para promover la optimización del modelo. Utilizando el marco de aprendizaje profundo por refuerzo del algoritmo AlphaZero, el problema de despliegue de nodos inalámbricos en redes inalámbricas ad hoc es equivalente al juego de Go. Se diseña un modelo de despliegue de nodos móviles en redes inalámbricas ad hoc basado en el algoritmo AlphaZero. Debido a que el escenario de aplicación de la red inalámbrica ad hoc no tiene las características de simetría e invariabilidad del tablero de ajedrez, no es posible expandir el conjunto de datos de muestra rotando y cambiando la orientación del tablero de ajedrez. Se utilizan la estrategia de actualización dinámica de la tasa de aprendizaje
Esta es una versión de prueba de citación de documentos de la Biblioteca Virtual Pro. Puede contener errores. Lo invitamos a consultar los manuales de citación de las respectivas fuentes.
Artículo:
Dinámica neuronal durante el estado de reposo: una exploración con reducción y visualización de resonancia magnética funcional.
Artículo:
Un nuevo modelo GAN de distribución múltiple para resolver la complejidad en la cariotipificación de cromosomas de extremo a extremo.
Artículo:
Análisis de conjuntos invariantes robustos de redes booleanas
Artículo:
Análisis de estabilidad en tiempo finito de redes genéticas reguladoras con conmutación y retardos variables en el tiempo a través de la desigualdad integral de Wirtinger
Artículo:
DL-IDS: Extracción de características mediante una red híbrida CNN-LSTM para un sistema de detección de intrusiones