Los métodos de gradiente de política de vainilla sufren de alta varianza, lo que lleva a políticas inestables durante el entrenamiento, donde el rendimiento de la política fluctúa drásticamente entre iteraciones. Para abordar este problema, analizamos el proceso de optimización de la política del método de navegación basado en aprendizaje profundo por refuerzo (DRL) que utiliza descenso de gradiente asincrónico para la optimización. Se presenta una variante de navegación (navegación de optimización de política proximal asincrónica) que puede garantizar la mejora monótona de la política durante el proceso de optimización de la política. Nuestros experimentos se probaron en DeepMind Lab, y los resultados experimentales muestran que los agentes artificiales con funcionan mejor que el algoritmo comparado.
Esta es una versión de prueba de citación de documentos de la Biblioteca Virtual Pro. Puede contener errores. Lo invitamos a consultar los manuales de citación de las respectivas fuentes.
Artículo:
Espectroscopia en química de materiales
Artículo:
Fracción de látex de suero de Hancornia speciosa: un biomaterial no alergénico
Artículo:
Evaluación de la amenaza bioterrorista del ántrax Estrategias de preparación y respuesta
Artículo:
Pinzamiento intercondilar del ligamento cruzado anterior: Un estudio cadavérico in vitro con robots
Artículo:
Eliminación de contaminantes peligrosos de las aguas residuales: Aplicaciones de materiales de óxido mixto TiO2-SiO2
Libro:
La crisis alimentaria: retos y oportunidades en los Andes
Artículo:
Bases para implementar un programa de mantenimiento predictivo : caso de estudio
Artículo:
La aplicación de la Inteligencia Artificial y el Big Data en la industria alimentaria
Artículo:
Analgésicos en el paciente hospitalizado: Revisión de tema