En este estudio, se aplican los algoritmos híbridos estado-acción-recompensa-estado-acción (SARSA) y Q-learning a diferentes etapas de un límite superior aplicado a la búsqueda en árbol para el ajedrez tibetano Jiu. Además, se utiliza Q-learning para actualizar todos los nodos en el camino de búsqueda al finalizar cada partida. Se propone una estrategia de aprendizaje que utiliza los algoritmos SARSA y Q-learning combinando conocimiento del dominio para una función de retroalimentación en las etapas de diseño y batalla. Se emplea una red neuronal profunda mejorada basada en ResNet18 para el entrenamiento de autojuego. Los resultados experimentales muestran que el aprendizaje por refuerzo híbrido en línea y fuera de línea con una red neuronal profunda puede mejorar la eficiencia de aprendizaje y la capacidad de comprensión de los programas de juego para el ajedrez tibetano Jiu.
Esta es una versión de prueba de citación de documentos de la Biblioteca Virtual Pro. Puede contener errores. Lo invitamos a consultar los manuales de citación de las respectivas fuentes.
Artículos:
Accesibilidad de Instalaciones Médicas en Múltiples Modos de Tráfico: Un Estudio en Guangzhou, China
Artículos:
Sobre el uso de LoRaWAN para aplicaciones IoT industriales en interiores
Artículos:
Evaluación del rendimiento de un sistema de doble cobertura para entornos del Internet de las cosas
Artículos:
Un nuevo modelo de simulación para canales de desvanecimiento de arroz no estacionarios
Artículos:
Método Youngs no dividido para rastrear la interfaz móvil de la lechada expansible.
Tesis y Trabajos de grado:
Sistema de costos por órdenes de producción para determinar la rentabilidad de la empresa de lácteos “San Agustín” Cía. Ltda., ubicada en la parroquia de Pintag, provincia de Pichincha
Showroom:
Bombas centrífugas
Norma:
Bombas centrífugas
Artículos:
Comportamiento del aguacate Hass liofilizado durante la operación de rehidratación