En este estudio, se aplican los algoritmos híbridos estado-acción-recompensa-estado-acción (SARSA) y Q-learning a diferentes etapas de un límite superior aplicado a la búsqueda en árbol para el ajedrez tibetano Jiu. Además, se utiliza Q-learning para actualizar todos los nodos en el camino de búsqueda al finalizar cada partida. Se propone una estrategia de aprendizaje que utiliza los algoritmos SARSA y Q-learning combinando conocimiento del dominio para una función de retroalimentación en las etapas de diseño y batalla. Se emplea una red neuronal profunda mejorada basada en ResNet18 para el entrenamiento de autojuego. Los resultados experimentales muestran que el aprendizaje por refuerzo híbrido en línea y fuera de línea con una red neuronal profunda puede mejorar la eficiencia de aprendizaje y la capacidad de comprensión de los programas de juego para el ajedrez tibetano Jiu.
Esta es una versión de prueba de citación de documentos de la Biblioteca Virtual Pro. Puede contener errores. Lo invitamos a consultar los manuales de citación de las respectivas fuentes.
Artículo:
Investigación sobre el funcionamiento de empresas de comercio electrónico basadas en la tecnología blockchain y plataformas bilaterales.
Artículo:
Externalización del cálculo de intersección de conjuntos basado en el filtro Bloom para preservar la privacidad en el procesamiento multimedia
Artículo:
Reconocimiento del estado del transporte por sensores de teléfonos inteligentes mediante una red neuronal profunda Bi-LSTM.
Artículo:
Aplicación de la teoría de catástrofes a la detección de anomalías de red en el tráfico de computación en nube
Artículo:
Almacenamiento y mantenimiento seguro de datos P2P