Biblioteca122.294 documentos en línea

Artículo

Visual Navigation with Asynchronous Proximal Policy Optimization in Artificial AgentsNavegación visual con optimización de política proximal asíncrona en agentes artificiales

Resumen

Los métodos de gradiente de política de vainilla sufren de alta varianza, lo que lleva a políticas inestables durante el entrenamiento, donde el rendimiento de la política fluctúa drásticamente entre iteraciones. Para abordar este problema, analizamos el proceso de optimización de la política del método de navegación basado en aprendizaje profundo por refuerzo (DRL) que utiliza descenso de gradiente asincrónico para la optimización. Se presenta una variante de navegación (navegación de optimización de política proximal asincrónica) que puede garantizar la mejora monótona de la política durante el proceso de optimización de la política. Nuestros experimentos se probaron en DeepMind Lab, y los resultados experimentales muestran que los agentes artificiales con funcionan mejor que el algoritmo comparado.

  • Tipo de documento:
  • Formato:pdf
  • Idioma:Inglés
  • Tamaño: Kb

Cómo citar el documento

Esta es una versión de prueba de citación de documentos de la Biblioteca Virtual Pro. Puede contener errores. Lo invitamos a consultar los manuales de citación de las respectivas fuentes.

Este contenido no est� disponible para su tipo de suscripci�n

Información del documento