El aprendizaje de refuerzo jerárquico trabaja con acciones o habilidades extendidas temporalmente para facilitar el aprendizaje. Cómo formar automáticamente dicha abstracción es un reto, y muchos esfuerzos abordan esta cuestión en el marco de las opciones. Aunque existen varios enfoques para construir opciones desde diferentes perspectivas, pocos de ellos se concentran en la adaptabilidad de las opciones durante el aprendizaje. Este artículo presenta un algoritmo para crear opciones y mejorar su calidad en línea. Ambos aspectos operan sobre comunidades detectadas del gráfico de transición de estados del entorno de aprendizaje. Primero construimos opciones a partir de muestras iniciales como base del aprendizaje en línea. A continuación, se propone un algoritmo de revisión de comunidades basado en reglas para actualizar las particiones del grafo, a partir de las cuales se pueden ajustar continuamente las opciones existentes. Los resultados experimentales en dos problemas indican que las opciones a partir de muestras iniciales pueden funcionar mal en entornos más complejos, y nuestra estrategia presentada puede mejorar eficazmente las opciones y obtener mejores resultados en comparación con el aprendizaje por refuerzo plano.
Esta es una versión de prueba de citación de documentos de la Biblioteca Virtual Pro. Puede contener errores. Lo invitamos a consultar los manuales de citación de las respectivas fuentes.
Artículo:
Preparación de compuestos conductores PANI/PVA por vía de emulsión
Artículo:
Utilizar el diseño y el diseño gráfico con la investigación del color en los medios visuales AI para transmitir
Artículo:
Modificación superficial de nanopartículas de gelatina con polietilenimina como vector génico
Documento Editorial:
La nanotecnología está entre nosotros
Artículo:
Características eléctricas y de adsorción de recubrimientos nanocristalinos de V-(N, He)