En el aprendizaje por refuerzo (RL), un agente aprende un entorno a través de ensayo y error. Este comportamiento permite al agente aprender en entornos complejos y difíciles. En RL, el agente normalmente aprende el entorno dado explorando o explotando. La mayoría de los algoritmos sufren de subexploración en la última etapa de los episodios. Recientemente, se propuso un algoritmo fuera de política llamado actor crítico suave (SAC) que supera este problema al maximizar la entropía mientras aprende el entorno. En él, el agente intenta maximizar la entropía junto con las recompensas descontadas esperadas. En SAC, el agente intenta ser lo más aleatorio posible mientras se mueve hacia la recompensa máxima. Esta aleatoriedad permite al agente explorar el entorno y evita que se quede atascado en óptimos locales. Creemos que maximizar la entropía causa la sobreestimación del término de entropía, lo que resulta en un aprendizaje de política lento.
Esta es una versión de prueba de citación de documentos de la Biblioteca Virtual Pro. Puede contener errores. Lo invitamos a consultar los manuales de citación de las respectivas fuentes.
Artículo:
Dispositivo portátil que monitorea el consumo de energía del ejercicio basado en Internet de las cosas.
Artículo:
Análisis del Patrón de Distribución Espacial del Paisaje Urbano en las Llanuras Centrales bajo la Influencia de la Geomorfología Morfológica Multiescala y Multinivel.
Artículo:
Investigación sobre el reenvío eficiente de datos en redes vehiculares
Artículo:
Seguimiento de la punta de los dedos del guitarrista mediante la integración de un clasificador bayesiano en filtros de partículas.
Artículo:
Diseño de Observador Robusto para Sistemas Descriptor Discretos con Pérdida de Paquetes