Los métodos de gradiente de política de vainilla sufren de alta varianza, lo que lleva a políticas inestables durante el entrenamiento, donde el rendimiento de la política fluctúa drásticamente entre iteraciones. Para abordar este problema, analizamos el proceso de optimización de la política del método de navegación basado en aprendizaje profundo por refuerzo (DRL) que utiliza descenso de gradiente asincrónico para la optimización. Se presenta una variante de navegación (navegación de optimización de política proximal asincrónica) que puede garantizar la mejora monótona de la política durante el proceso de optimización de la política. Nuestros experimentos se probaron en DeepMind Lab, y los resultados experimentales muestran que los agentes artificiales con funcionan mejor que el algoritmo comparado.
Esta es una versión de prueba de citación de documentos de la Biblioteca Virtual Pro. Puede contener errores. Lo invitamos a consultar los manuales de citación de las respectivas fuentes.
Artículo:
Mejora del fotoblanqueo de Naranja II por dopaje moderado de Ga3 en Titania y efecto perjudicial del desorden estructural en la sobrecarga de Ga
Artículo:
Evaluación microbiológica de la desinfección en unidades odontológicas (estudio piloto)
Artículo:
Percepciones de las mujeres nigerianas sobre el virus del papiloma humano, el cáncer de cuello de útero y la vacuna contra el VPH
Artículo:
Ensamblaje de nanohojas de aluminio formadas por síntesis hidrotérmica
Artículo:
Evaluación de tareas mentales para interfaces cerebro-ordenador híbridas NIRS-EEG
Artículo:
Innovación frugal en la expansión de una filial multinacional en un mercado emergente
Artículo:
Intercambiadores de calor de placa corrugada: Características de cambio de fase y transferencia de calor
Artículo:
El proceso de gestión de innovación tecnológica: sus etapas e indicadores relacionados
Software:
GENUP : aprendizaje asistido por ordenador para la genética cuantitativa.