Se ha presentado una nueva teoría de control de seguimiento óptimo robusto de aprendizaje por refuerzo descentralizado para robots modulares reconfigurables con restricciones temporales basadas en el identificador crítico de acciones (ACI) y la función de valor estado-acción (función Q) para resolver el problema de la política de control óptimo no lineal en tiempo continuo para sistemas robóticos de incertidumbre fuertemente acoplados. La dinámica del robot modular reconfigurable con restricciones temporales se describe como una síntesis de subsistemas interconectados, y en este trabajo se han diseñado la ecuación de estado en tiempo continuo y la función Q. Combinando ACI y la red RBF, se ha estimado la incertidumbre global del subsistema y la ecuación HJB (Hamilton-Jacobi-Bellman), donde se utilizan Critic-NN y Action-NN para aproximar la función Q óptima y la política de control óptima, y se adopta el identificador para identificar la incertidumbre global así como RBF-NN que se utiliza para actualizar los pesos de ACI-NN. Sobre esta base, se propone un nuevo controlador de seguimiento óptimo robusto descentralizado del subsistema, de modo que el subsistema puede seguir la trayectoria deseada y el error de seguimiento puede converger a cero en un tiempo finito. La teoría de Lyapunov confirma la estabilidad del ACI y del controlador de seguimiento óptimo robusto. Por último, se presentan ejemplos de simulación comparativa para ilustrar la eficacia del ACI propuesto y la teoría de control descentralizado.
Esta es una versión de prueba de citación de documentos de la Biblioteca Virtual Pro. Puede contener errores. Lo invitamos a consultar los manuales de citación de las respectivas fuentes.
Artículo:
Sobre la convergencia de soluciones de ciertas ecuaciones diferenciales de tercer orden
Artículo:
Control Predictivo para Sistema Difuso Tipo-2 de Intervalo con Esquema Disparador de Eventos
Artículo:
Algunas nuevas desigualdades discretas no lineales de tipo Volterra-Fredholm con dos variables que involucran sumas iteradas y sus aplicaciones.
Artículo:
Múltiples soluciones positivas para un problema de valor límite fraccionario con argumento desviado de integral fraccionaria.
Artículo:
Un programa híbrido económico de propagación analítica de órbita J2 basado en modelos SARIMA
Artículo:
Creación de empresas y estrategia : reflexiones desde el enfoque de recursos
Artículo:
La gestión de las relaciones con los clientes como característica de la alta rentabilidad empresarial
Artículo:
Análisis socioeconómico de la problemática de los desechos plásticos en el mar
Artículo:
Los web services como herramienta generadora de valor en las organizaciones