Los programas informáticos de juego basados en el aprendizaje profundo por refuerzo han superado el rendimiento incluso de los mejores jugadores humanos. Sin embargo, el enorme espacio de análisis de estas redes neuronales y sus numerosos parámetros requieren una gran potencia de cálculo. Por ello, en este estudio nos propusimos aumentar la eficiencia de aprendizaje de la red modificando la estructura de la red neuronal, lo que debería reducir el número de iteraciones de aprendizaje y la potencia de cálculo necesaria. Se propone una red neuronal convolucional con una estructura de unidad de máximo promedio (MAO) basada en el pensamiento de función a trozos, a través de la cual se pueden aprender eficazmente las características y mejorar la capacidad de expresión de las características de la capa oculta. Para verificar el rendimiento de la estructura MAO, la comparamos con la red ResNet18 aplicando ambas al marco de AlphaGo Zero, desarrollado para jugar al juego Go. Las dos estructuras de red se entrenaron desde cero utilizando un entorno de servidor de bajo coste. La unidad MAO ganó ocho de cada diez partidas contra la red ResNet18. El rendimiento superior de la unidad MAO en comparación con la red ResNet18 es significativo para el futuro desarrollo de algoritmos de juego que requieran menos potencia de cálculo que los que se utilizan actualmente.
Esta es una versión de prueba de citación de documentos de la Biblioteca Virtual Pro. Puede contener errores. Lo invitamos a consultar los manuales de citación de las respectivas fuentes.
Artículo:
Un Enfoque de Escalas de Tiempo para la Coinfección por Enfermedades Oportunistas
Artículo:
Estudio de la influencia del ángulo de curvatura del estirado-curvado multipunto de perfiles en la deformación de la sección de las piezas
Artículo:
Índice de distancia de resistencia máxima de grado recíproco de grafos unicíclicos
Artículo:
Soluciones de ondas periódicas de funciones trigonométricas y sus formas límite para las ecuaciones de KdV y PC
Artículo:
Índice de Productividad de Malmquist mediante el Método VIKOR Extendido Utilizando Números de Intervalo