En este estudio, se aplican los algoritmos híbridos estado-acción-recompensa-estado-acción (SARSA) y Q-learning a diferentes etapas de un límite superior aplicado a la búsqueda en árbol para el ajedrez tibetano Jiu. Además, se utiliza Q-learning para actualizar todos los nodos en el camino de búsqueda al finalizar cada partida. Se propone una estrategia de aprendizaje que utiliza los algoritmos SARSA y Q-learning combinando conocimiento del dominio para una función de retroalimentación en las etapas de diseño y batalla. Se emplea una red neuronal profunda mejorada basada en ResNet18 para el entrenamiento de autojuego. Los resultados experimentales muestran que el aprendizaje por refuerzo híbrido en línea y fuera de línea con una red neuronal profunda puede mejorar la eficiencia de aprendizaje y la capacidad de comprensión de los programas de juego para el ajedrez tibetano Jiu.
Esta es una versión de prueba de citación de documentos de la Biblioteca Virtual Pro. Puede contener errores. Lo invitamos a consultar los manuales de citación de las respectivas fuentes.
Artículo:
Impacto del tamaño de los paquetes en una red de sensores de radio cognitiva adaptativa
Artículo:
Un Análisis Comparativo de las Habilidades Predictivas de las Métricas de Complejidad Económica Utilizando la Red de Comercio Internacional
Artículo:
Investigación sobre el Sistema de Aprendizaje Adaptativo de Estudiantes Basado en un Modelo de Aprendizaje Profundo
Artículo:
Investigación sobre la Evaluación del Riesgo Financiero en la Cadena de Suministro basada en Blockchain y Redes Neuronales Difusas.
Artículo:
Diversidad de soluciones de interacción de una ecuación de onda de agua poco profunda
Artículo:
Creación de empresas y estrategia : reflexiones desde el enfoque de recursos
Artículo:
Los web services como herramienta generadora de valor en las organizaciones
Artículo:
La gestión de las relaciones con los clientes como característica de la alta rentabilidad empresarial
Libro:
Ergonomía en los sistemas de trabajo