Biblioteca122.739 documentos en línea

Artículos

Efficient Reinforcement Learning from Demonstration via Bayesian Network-Based Knowledge ExtractionAprendizaje por refuerzo eficiente a partir de la demostración mediante la extracción de conocimientos basada en redes bayesianas

Resumen

El aprendizaje por refuerzo a partir de la demostración (RLfD) se considera un enfoque prometedor para mejorar el aprendizaje por refuerzo (RL) aprovechando las demostraciones de los expertos como guía adicional para la toma de decisiones. Sin embargo, la mayoría de los métodos de RLfD existentes sólo consideran las demostraciones como instancias de conocimiento de bajo nivel en una determinada tarea. Las demostraciones se utilizan generalmente para proporcionar recompensas adicionales o para preentrenar la política de RL basada en redes neuronales de forma supervisada, lo que suele dar lugar a una pobre capacidad de generalización y a un débil rendimiento de robustez. Teniendo en cuenta que el conocimiento humano no sólo es interpretable, sino que también es adecuado para la generalización, proponemos explotar el potencial de las demostraciones extrayendo el conocimiento de las mismas a través de redes bayesianas y desarrollamos un novedoso método de RLfD denominado Aprendizaje de refuerzo a partir de la demostración a través del conocimiento basado en redes bayesianas (RLBNK). El método RLBNK propuesto aprovecha la influencia de los nodos con el algoritmo de la métrica de distancia de Wasserstein (NIW) para obtener conceptos abstractos de las demostraciones y, a continuación, una red bayesiana realiza el aprendizaje de conocimientos y la inferencia basada en el conjunto de datos abstractos, lo que producirá la política gruesa con la confianza correspondiente. Una vez que la confianza de la política gruesa es baja, otro módulo de refinamiento basado en RL optimizará y ajustará la política para formar una política híbrida (casi) óptima. Los resultados experimentales demuestran que el método RLBNK propuesto mejora la eficiencia de aprendizaje de los algoritmos RL de referencia correspondientes, tanto en entornos de recompensa normal como escasa. Además, demostramos que nuestro método RLBNK ofrece una mayor capacidad de generalización y robustez que los métodos de referencia.

  • Tipo de documento:
  • Formato:pdf
  • Idioma:Inglés
  • Tamaño: Kb

Cómo citar el documento

Esta es una versión de prueba de citación de documentos de la Biblioteca Virtual Pro. Puede contener errores. Lo invitamos a consultar los manuales de citación de las respectivas fuentes.

Este contenido no est� disponible para su tipo de suscripci�n

Información del documento