Los métodos de gradiente de política de vainilla sufren de alta varianza, lo que lleva a políticas inestables durante el entrenamiento, donde el rendimiento de la política fluctúa drásticamente entre iteraciones. Para abordar este problema, analizamos el proceso de optimización de la política del método de navegación basado en aprendizaje profundo por refuerzo (DRL) que utiliza descenso de gradiente asincrónico para la optimización. Se presenta una variante de navegación (navegación de optimización de política proximal asincrónica) que puede garantizar la mejora monótona de la política durante el proceso de optimización de la política. Nuestros experimentos se probaron en DeepMind Lab, y los resultados experimentales muestran que los agentes artificiales con funcionan mejor que el algoritmo comparado.
Esta es una versión de prueba de citación de documentos de la Biblioteca Virtual Pro. Puede contener errores. Lo invitamos a consultar los manuales de citación de las respectivas fuentes.
Artículo:
Fabricación de Nano-CeO2 y aplicación de Nano-CeO2 en compuestos de matriz de Fe
Artículo:
Predicción automática de recurrencia de episodios cardiovasculares graves: Un estudio de minería de textos a partir de informes de radiografía de tórax
Artículo:
Algoritmo genético para el problema del viajante de comercio con operador de cruce de ciclos modificado
Artículo:
Estudio de la calibración de la serie temporal de la irregularidad de la vía y del patrón de variación en la sección de la unidad
Ponencia:
Diseño y modelado de un biorreactor tipo batch y continuo para aplicaciones de control automático
Libro:
Ergonomía en los sistemas de trabajo
Artículo:
Obtención de gas combustible mediante la bioconversión del alga marina Ulva lactuca
Artículo:
Sistemas de producción y potencial energético de la energía mareomotriz
Artículo:
La necesidad de la planeación estratégica en las organizaciones industriales modernas