Los algoritmos de aprendizaje por refuerzo para robots múltiples se vuelven muy lentos cuando aumenta el número de robots, lo que provoca un aumento exponencial del espacio de estados. Se presenta un aprendizaje Q secuencial basado en el intercambio de conocimientos. El repositorio de reglas de comportamiento de los robots se inicializa en primer lugar en el proceso de aprendizaje por refuerzo. Los robots móviles obtienen el estado actual del entorno mediante sensores. A continuación, se compara el estado para determinar si la regla de comportamiento relevante se ha almacenado en la base de datos. Si la regla está presente, se elegirá una acción de acuerdo con el conocimiento y las reglas, y se refinará el peso de la coincidencia. En caso contrario, la nueva regla se añadirá a la base de datos. Los robots aprenden según una secuencia determinada y comparten la base de datos de comportamientos. Examinamos el algoritmo mediante el comportamiento de seguimiento-rodeo de varios robots y descubrimos que el algoritmo mejorado puede acelerar eficazmente la velocidad de convergencia.
Esta es una versión de prueba de citación de documentos de la Biblioteca Virtual Pro. Puede contener errores. Lo invitamos a consultar los manuales de citación de las respectivas fuentes.
Artículo:
Características térmicas aeroelásticas del experimento del vehículo de reentrada inflable (IRVE) en flujo hipersónico
Artículo:
Modelización y predicción de los datos de velocidad de la rueda de impulso
Artículo:
Estudio analítico sobre la deformación y la seguridad estructural del parapente
Artículo:
Algoritmos y sistemas de control borroso aplicados en una planta de calcinación de la industria de producción de níquel
Artículo:
El soporte informático del diagnóstico de los cristalizadores circulares