Nueva herramienta evalúa el progreso en el aprendizaje por refuerzo

Contáctanos

Temas

Artículos

XBooks

Revistas

Laboratorios

Showroom

Infografías

Recorridos

Videos

Perfiles

Actualidad

Imagen. / Wikipedia por Matti Blume

2025-05-07

Nueva herramienta evalúa el progreso en el aprendizaje por refuerzo

Si hay algo que caracteriza la conducción en cualquier gran ciudad, es el constante parar y arrancar mientras cambian los semáforos y los coches y camiones se incorporan, se separan, giran y estacionan. Este constante parar y arrancar es extremadamente ineficiente y aumenta la cantidad de contaminación, incluidos los gases de efecto invernadero, que se emite por kilómetro recorrido.

Un enfoque para contrarrestar esto se conoce como eco-conducción, que puede instalarse como sistema de control en vehículos autónomos para mejorar su eficiencia.

¿Qué impacto podría tener esto? ¿Valdría la pena invertir en la tecnología debido al impacto de estos sistemas en la reducción de emisiones? Abordar estas preguntas forma parte de una amplia categoría de problemas de optimización que han sido difíciles de abordar para los investigadores, y ha sido difícil probar las soluciones que han encontrado. Estos problemas involucran a muchos agentes diferentes, como los distintos tipos de vehículos en una ciudad, y diversos factores que influyen en sus emisiones, como la velocidad, el clima, las condiciones de la carretera y la sincronización de los semáforos.

“Hace unos años nos interesó la pregunta: ¿Podrían los vehículos automatizados contribuir en algo a la mitigación de emisiones?”, afirma Cathy Wu, profesora asociada de Desarrollo Profesional Thomas D. y Virginia W. Cabot en el Departamento de Ingeniería Civil y Ambiental y el Instituto de Datos, Sistemas y Sociedad (IDSS) del MIT, e investigadora principal del Laboratorio de Sistemas de Información y Decisión. “¿Es una gota en el océano o algo en lo que pensar?”, se pregunta.

Para abordar una cuestión como esta, que implica tantos componentes, el primer requisito es recopilar todos los datos disponibles sobre el sistema, procedentes de diversas fuentes. Uno de ellos es el diseño de la topología de la red, según Wu, en este caso un mapa de todas las intersecciones de cada ciudad. También se utilizan los datos del Servicio Geológico de Estados Unidos que muestran las elevaciones para determinar la pendiente de las carreteras. También se incluyen datos sobre temperatura y humedad, datos sobre la combinación de tipos y edades de vehículos, y sobre la combinación de tipos de combustible.

La conducción ecológica implica realizar pequeños ajustes para minimizar el consumo innecesario de combustible. Por ejemplo, cuando los coches se acercan a un semáforo en rojo, «no tiene sentido conducir lo más rápido posible hasta el semáforo», afirma. Al simplemente avanzar por inercia, «no quemo gasolina ni electricidad mientras tanto». Si un coche, como un vehículo autónomo, reduce la velocidad al acercarse a una intersección, los coches convencionales, no autónomos, que le siguen también se verán obligados a hacerlo, por lo que el impacto de esta conducción eficiente puede extenderse mucho más allá del coche que la conduce.

Esa es la idea básica de la conducción ecológica, afirma Wu. Pero para determinar el impacto de estas medidas, «se trata de problemas de optimización complejos» que involucran muchos factores y parámetros diferentes, «por lo que existe un gran interés en cómo resolver problemas de control complejos mediante IA».

El nuevo sistema de referencia que Wu y sus colaboradores desarrollaron, basado en la conducción ecológica urbana, al que denominan "IntersectionZoo", busca abordar parte de esa necesidad. Este sistema se describió en detalle en un artículo presentado en la Conferencia Internacional sobre Representación del Aprendizaje de 2025 en Singapur.

Al analizar los enfoques que se han utilizado para abordar problemas tan complejos, Wu afirma que una categoría importante de métodos es el aprendizaje de refuerzo profundo (DRL) de múltiples agentes, pero la falta de puntos de referencia estándar adecuados para evaluar los resultados de dichos métodos ha obstaculizado el progreso en este campo.

El nuevo punto de referencia pretende abordar un problema importante que Wu y su equipo identificaron hace dos años, que es que con la mayoría de los algoritmos de aprendizaje de refuerzo profundo existentes, cuando se entrenan para una situación específica (por ejemplo, una intersección en particular), el resultado no sigue siendo relevante incluso cuando se realizan pequeñas modificaciones, como agregar un carril para bicicletas o cambiar el tiempo de un semáforo, incluso cuando se les permite entrenar para el escenario modificado.

De hecho, señala Wu, este problema de no generalización "no es exclusivo del tráfico", afirma. "Se remonta a las tareas canónicas que la comunidad utiliza para evaluar el progreso en el diseño de algoritmos". Sin embargo, dado que la mayoría de estas tareas canónicas no implican modificaciones, "es difícil saber si el algoritmo está avanzando en este tipo de problema de robustez si no lo evaluamos".

Si bien existen muchos puntos de referencia que se utilizan actualmente para evaluar el progreso algorítmico en DRL, afirma: «Este problema de conducción ecológica presenta un amplio conjunto de características importantes para resolver problemas del mundo real, especialmente desde el punto de vista de la generalización, y que ningún otro punto de referencia satisface». Por ello, el millón de escenarios de tráfico basados en datos de IntersectionZoo lo posiciona de forma única para impulsar el progreso en la generalización de DRL. En consecuencia, «este punto de referencia enriquece la variedad de maneras de evaluar algoritmos de RL profundo y su progreso».

En cuanto a la pregunta inicial sobre el tráfico urbano, uno de los focos del trabajo en curso será aplicar esta herramienta de evaluación comparativa recientemente desarrollada para abordar el caso particular de cuánto impacto en las emisiones se obtendría de la implementación de la conducción ecológica en vehículos automatizados en una ciudad, dependiendo del porcentaje de dichos vehículos que realmente estén desplegados.

Pero Wu añade que “en lugar de crear algo que pueda implementar la conducción ecológica a escala de ciudad, el objetivo principal de este estudio es respaldar el desarrollo de algoritmos de aprendizaje de refuerzo profundo de propósito general, que se puedan aplicar a esta aplicación, pero también a todas estas otras aplicaciones: conducción autónoma, videojuegos, problemas de seguridad, problemas de robótica, almacenamiento, problemas de control clásico”.

Wu añade que “el objetivo del proyecto es proporcionar esto como una herramienta para investigadores, que esté disponible abiertamente”. IntersectionZoo y la documentación sobre cómo usarlo están disponibles gratuitamente en GitHub.

En el artículo, Wu está acompañado por los autores principales Vindula Jayawardana, estudiante de posgrado del Departamento de Ingeniería Eléctrica y Ciencias de la Computación (EECS) del MIT; Baptiste Freydt, estudiante de posgrado de ETH Zurich; y los coautores Ao Qu, estudiante de posgrado en transporte; Cameron Hickert, estudiante de posgrado de IDSS; y Zhongxia Yan PhD ´24.

Autor

Autor

MIT

Promover la investigación, las innovaciones, la enseñanza y los eventos y las personas de interés periodístico del MIT a la comunidad del campus, los medios de comunicación y el público en general, Comunicar anuncios del Instituto, Publicar noticias de la comunidad para profesores, estudiantes, personal y ex alumnos del MIT. Proporcionar servicios de medios a los miembros de la comunidad, incluido el asesoramiento sobre cómo trabajar con periodistas, Responder a consultas de los medios y solicitudes de entrevistas...

Nueva herramienta evalúa el progreso en el aprendizaje por refuerzo

Noticias más leídas

Otros recursos que podrían interesarte

Temas Virtualpro