El aprendizaje por refuerzo a partir de la demostración (RLfD) se considera un enfoque prometedor para mejorar el aprendizaje por refuerzo (RL) aprovechando las demostraciones de los expertos como guía adicional para la toma de decisiones. Sin embargo, la mayoría de los métodos de RLfD existentes sólo consideran las demostraciones como instancias de conocimiento de bajo nivel en una determinada tarea. Las demostraciones se utilizan generalmente para proporcionar recompensas adicionales o para preentrenar la política de RL basada en redes neuronales de forma supervisada, lo que suele dar lugar a una pobre capacidad de generalización y a un débil rendimiento de robustez. Teniendo en cuenta que el conocimiento humano no sólo es interpretable, sino que también es adecuado para la generalización, proponemos explotar el potencial de las demostraciones extrayendo el conocimiento de las mismas a través de redes bayesianas y desarrollamos un novedoso método de RLfD denominado Aprendizaje de refuerzo a partir de la demostración a través del conocimiento basado en redes bayesianas (RLBNK). El método RLBNK propuesto aprovecha la influencia de los nodos con el algoritmo de la métrica de distancia de Wasserstein (NIW) para obtener conceptos abstractos de las demostraciones y, a continuación, una red bayesiana realiza el aprendizaje de conocimientos y la inferencia basada en el conjunto de datos abstractos, lo que producirá la política gruesa con la confianza correspondiente. Una vez que la confianza de la política gruesa es baja, otro módulo de refinamiento basado en RL optimizará y ajustará la política para formar una política híbrida (casi) óptima. Los resultados experimentales demuestran que el método RLBNK propuesto mejora la eficiencia de aprendizaje de los algoritmos RL de referencia correspondientes, tanto en entornos de recompensa normal como escasa. Además, demostramos que nuestro método RLBNK ofrece una mayor capacidad de generalización y robustez que los métodos de referencia.
Esta es una versión de prueba de citación de documentos de la Biblioteca Virtual Pro. Puede contener errores. Lo invitamos a consultar los manuales de citación de las respectivas fuentes.
Documento Editorial:
Los alimentos: fuente de bienestar, pero...
Artículos:
Adaptación del paradigma de bioprocesamiento consolidado por levaduras a las biorrefinerías
Tesis y Trabajos de grado:
Procesos de magnetización en nanocompuestos granulares de ferrita de NiZn/SiO2 y Fe/SiO2
Artículos:
Síntesis y caracterización en un solo paso de esferas nanométricas/submicrométricas de sílice mediante pirólisis asistida por catalizador de un polímero precerámico
Artículos:
Liberación Fotoresponsiva de Partículas de Cristal Cúbico Único de NaCl/Sílice Modificadas con Azobenceno
Artículos:
Comportamiento del aguacate Hass liofilizado durante la operación de rehidratación
Artículos:
Caracterización estructural de la materia orgánica de tres suelos provenientes del municipio de Aquitania-Boyacá, Colombia
Informes y Reportes:
Técnicas de recuperación de suelos contaminados
Artículos:
Una revisión de la etiopatogenia y características clínicas e histopatológicas del melanoma mucoso oral.