Biblioteca122.294 documentos en línea

Artículo

Reducing Entropy Overestimation in Soft Actor Critic Using Dual Policy NetworkReduciendo la sobreestimación de la entropía en Soft Actor Critic utilizando una red de políticas doble.

Resumen

En el aprendizaje por refuerzo (RL), un agente aprende un entorno a través de ensayo y error. Este comportamiento permite al agente aprender en entornos complejos y difíciles. En RL, el agente normalmente aprende el entorno dado explorando o explotando. La mayoría de los algoritmos sufren de subexploración en la última etapa de los episodios. Recientemente, se propuso un algoritmo fuera de política llamado actor crítico suave (SAC) que supera este problema al maximizar la entropía mientras aprende el entorno. En él, el agente intenta maximizar la entropía junto con las recompensas descontadas esperadas. En SAC, el agente intenta ser lo más aleatorio posible mientras se mueve hacia la recompensa máxima. Esta aleatoriedad permite al agente explorar el entorno y evita que se quede atascado en óptimos locales. Creemos que maximizar la entropía causa la sobreestimación del término de entropía, lo que resulta en un aprendizaje de política lento.

  • Tipo de documento:
  • Formato:pdf
  • Idioma:Inglés
  • Tamaño: Kb

Cómo citar el documento

Esta es una versión de prueba de citación de documentos de la Biblioteca Virtual Pro. Puede contener errores. Lo invitamos a consultar los manuales de citación de las respectivas fuentes.

Este contenido no est� disponible para su tipo de suscripci�n

Información del documento