Biblioteca122.294 documentos en línea

Artículo

Ramp Metering for a Distant Downstream Bottleneck Using Reinforcement Learning with Value Function ApproximationMedición de rampas para un cuello de botella distante aguas abajo mediante aprendizaje por refuerzo con aproximación de la función de valor

Resumen

La medición en rampa para un cuello de botella situado lejos de la rampa es más difícil que para un cuello de botella situado cerca de la rampa. Esto se debe a que, bajo el control de una estrategia de medición de rampas lineal convencional, cuando el tráfico medido de la rampa llega al cuello de botella distante aguas abajo, el estado del cuello de botella puede haber cambiado significativamente desde el momento en que se muestrea para calcular la tasa de medición; debido al tiempo considerable que este tráfico tendrá que recorrer la larga distancia entre la rampa y el cuello de botella. Como consecuencia de estos efectos de retardo temporal, pueden surgir importantes problemas de estabilidad. Los estudios anteriores han recurrido principalmente a compensar los efectos de retardo incorporando a los sistemas de control predictores de la evolución del flujo de tráfico. Este artículo presenta un enfoque alternativo. El problema de la medición de rampas para un cuello de botella distante aguas abajo se formula como un problema de aprendizaje Q, en el que un agente inteligente de medición de rampas aprende una política óptima no lineal de medición de rampas, de forma que la capacidad del cuello de botella distante aguas abajo pueda utilizarse al máximo, pero sin excederse y causar congestión. La política aprendida está en forma de retroalimentación pura, ya que sólo se necesita el estado actual del entorno para determinar la tasa de medición óptima para el momento actual. No es necesaria la predicción, ya que la anticipación de la evolución del flujo de tráfico se ha inculcado en la política de retroalimentación no lineal a través del aprendizaje. Para hacer frente al intimidante coste computacional asociado al espacio de estado continuo multidimensional, la función de valor de las acciones se aproxima mediante una red neuronal artificial, en lugar de una tabla de consulta. El mecanismo y el desarrollo de la función de valor aproximada y la forma en que el aprendizaje de sus parámetros se integra en el proceso de aprendizaje Q están bien explicados. Mediante experimentos, la política de medición en rampa aprendida ha demostrado eficacia y estabilidad benigna y cierto nivel de robustez frente a las incertidumbres de la demanda.

  • Tipo de documento:
  • Formato:pdf
  • Idioma:Inglés
  • Tamaño: Kb

Cómo citar el documento

Esta es una versión de prueba de citación de documentos de la Biblioteca Virtual Pro. Puede contener errores. Lo invitamos a consultar los manuales de citación de las respectivas fuentes.

Este contenido no est� disponible para su tipo de suscripci�n

Información del documento