Para los especialistas en robótica, hay un reto que destaca sobre todos los demás: la generalización, es decir, la capacidad de crear máquinas que puedan adaptarse a cualquier entorno o condición. Desde la década de 1970, el campo ha evolucionado desde la escritura de programas sofisticados hasta el aprendizaje profundo, enseñando a los robots a aprender directamente del comportamiento humano. Pero sigue habiendo un cuello de botella crítico: la calidad de los datos. Para mejorar, los robots deben enfrentarse a situaciones que superen los límites de sus capacidades, operando al límite de su dominio. Este proceso requiere tradicionalmente la supervisión humana, en la que los operarios desafían cuidadosamente a los robots para que amplíen sus capacidades. A medida que los robots se vuelven más sofisticados, este enfoque práctico se topa con un problema de escala: la demanda de datos de entrenamiento de alta calidad supera con creces la capacidad de los humanos para proporcionarlos.
Ahora, un equipo de investigadores del Laboratorio de Ciencias de la Computación e Inteligencia Artificial (CSAIL) del MIT ha desarrollado un novedoso método de entrenamiento de robots que podría acelerar significativamente el despliegue de máquinas adaptables e inteligentes en entornos reales. El nuevo sistema, denominado "LucidSim", utiliza los últimos avances en inteligencia artificial generativa y simuladores físicos para crear entornos virtuales de entrenamiento diversos y realistas, que ayuden a los robots a alcanzar un nivel experto en tareas difíciles sin necesidad de datos del mundo real.
LucidSim combina la simulación física con modelos generativos de inteligencia artificial, abordando uno de los retos más persistentes de la robótica: transferir al mundo real las habilidades aprendidas en simulación. Un reto fundamental en el aprendizaje de robots ha sido durante mucho tiempo la "brecha entre simulación y realidad", es decir, la disparidad entre los entornos de entrenamiento simulados y el complejo e impredecible mundo real", afirma Ge Yang, investigador principal de LucidSim y postdoctorando del CSAIL del MIT. "Los enfoques anteriores solían basarse en sensores de profundidad, que simplificaban el problema pero pasaban por alto complejidades cruciales del mundo real".
El sistema es una mezcla de varias tecnologías. En esencia, LucidSim utiliza grandes modelos lingüísticos para generar diversas descripciones estructuradas de los entornos. A continuación, estas descripciones se transforman en imágenes mediante modelos generativos. Para garantizar que estas imágenes reflejen la física del mundo real, se utiliza un simulador de física subyacente que guía el proceso de generación.
La inspiración para LucidSim surgió de un lugar inesperado: una conversación a las puertas de la taquería Beantown, en Cambridge (Massachusetts). Queríamos enseñar a los robots dotados de visión cómo mejorar utilizando la retroalimentación humana. Pero entonces nos dimos cuenta de que, para empezar, no teníamos una política basada puramente en la visión", explica Alan Yu, estudiante de Ingeniería Eléctrica e Informática (EECS) en el MIT y coautor principal de LucidSim. "Seguimos hablando de ello mientras caminábamos por la calle y luego nos detuvimos fuera de la taquería durante media hora. Ahí fue donde tuvimos nuestro momento".
Para cocinar sus datos, el equipo generó imágenes realistas extrayendo de la escena simulada mapas de profundidad, que proporcionan información geométrica, y máscaras semánticas, que etiquetan distintas partes de una imagen. Rápidamente se dieron cuenta, sin embargo, de que con un control estricto de la composición del contenido de la imagen, el modelo produciría imágenes similares que no se diferenciaban entre sí utilizando la misma indicación. Así que idearon una forma de obtener diversas indicaciones de texto de ChatGPT.
Este enfoque, sin embargo, sólo daba como resultado una única imagen. Para hacer vídeos cortos y coherentes que sirvieran de pequeñas "experiencias" para el robot, los científicos hackearon un poco de magia de imágenes en otra técnica novedosa que creó el equipo, llamada "Dreams In Motion". El sistema calcula los movimientos de cada píxel entre fotogramas, para deformar una sola imagen generada en un vídeo corto de varios fotogramas. Dreams In Motion lo hace teniendo en cuenta la geometría tridimensional de la escena y los cambios relativos en la perspectiva del robot.
"Superamos la aleatorización de dominios, un método desarrollado en 2017 que aplica colores y patrones aleatorios a los objetos del entorno, que todavía se considera el método a seguir en estos días", dice Yu. "Aunque esta técnica genera datos diversos, carece de realismo. LucidSim aborda tanto los problemas de diversidad como los de realismo. Es emocionante que, incluso sin ver el mundo real durante el entrenamiento, el robot pueda reconocer y sortear obstáculos en entornos reales."
El equipo está especialmente entusiasmado con la posibilidad de aplicar LucidSim a ámbitos ajenos a la locomoción de cuadrúpedos y el parkour, su principal banco de pruebas. Un ejemplo es la manipulación móvil, en la que se encarga a un robot móvil que manipule objetos en una zona abierta; además, la percepción del color es fundamental. "En la actualidad, estos robots siguen aprendiendo a partir de demostraciones en el mundo real", explica Yang. "Aunque recopilar demostraciones es fácil, ampliar la configuración de teleoperación de un robot del mundo real a miles de habilidades es un reto porque un humano tiene que configurar físicamente cada escena. Esperamos hacer esto más fácil, y por tanto cualitativamente más escalable, trasladando la recogida de datos a un entorno virtual."
El equipo puso a LucidSim a prueba frente a una alternativa, en la que un profesor experto demuestra la habilidad para que el robot aprenda de ella. Los resultados fueron sorprendentes: Los robots entrenados por el experto tuvieron dificultades, ya que sólo lo consiguieron el 15 % de las veces, e incluso cuadruplicando la cantidad de datos de entrenamiento del experto apenas se movió la aguja. Pero cuando los robots recopilaron sus propios datos de entrenamiento a través de LucidSim, la historia cambió radicalmente. Con sólo duplicar el tamaño del conjunto de datos, las tasas de éxito aumentaron hasta el 88 %. "Y darle más datos a nuestro robot mejora monotónicamente su rendimiento: al final, el alumno se convierte en experto", afirma Yang.
"Uno de los principales retos de la transferencia de simulación a realidad en robótica es conseguir realismo visual en entornos simulados", afirma Shuran Song, profesor adjunto de Ingeniería Eléctrica de la Universidad de Stanford, que no participó en la investigación. "El marco LucidSim ofrece una solución elegante al utilizar modelos generativos para crear datos visuales diversos y muy realistas para cualquier simulación. Este trabajo podría acelerar significativamente el despliegue de robots entrenados en entornos virtuales para tareas del mundo real."
Desde las calles de Cambridge hasta la vanguardia de la investigación robótica, LucidSim está allanando el camino hacia una nueva generación de máquinas inteligentes y adaptables, que aprendan a desenvolverse en nuestro complejo mundo sin poner nunca un pie en él.
Yu y Yang escribieron el artículo con cuatro compañeros del CSAIL: Ran Choi, postdoctorando en ingeniería mecánica del MIT; Yajvan Ravan, estudiante de EECS en el MIT; John Leonard, catedrático Samuel C. Collins de Ingeniería Mecánica y Oceánica en el Departamento de Ingeniería Mecánica del MIT; y Phillip Isola, profesor asociado de EECS en el MIT. Su trabajo ha sido financiado, en parte, por una beca Packard, una beca de investigación Sloan, la Oficina de Investigación Naval, la Agencia de Ciencia y Tecnología para la Defensa de Singapur, Amazon, el Laboratorio Lincoln del MIT y el Instituto de Inteligencia Artificial e Interacciones Fundamentales de la Fundación Nacional para la Ciencia. Los investigadores presentaron su trabajo en la Conferencia sobre Aprendizaje de Robots (CoRL) a principios de noviembre.
Autor
Promover la investigación, las innovaciones, la enseñanza y los eventos y las personas de interés periodístico del MIT a la comunidad del campus, los medios de comunicación y el público en general, Comunicar anuncios del Instituto, Publicar noticias de la comunidad para profesores, estudiantes, personal y ex alumnos del MIT. Proporcionar servicios de medios a los miembros de la comunidad, incluido el asesoramiento sobre cómo trabajar con periodistas, Responder a consultas de los medios y solicitudes de entrevistas...
Los físicos se sorprenden al descubrir que los electrones de las pentaláminas de grafeno pueden presentar carga fraccionaria. Un nuevo estudio sugiere cómo podría funcionar.
Los bulos, la propaganda y la desinformación han existido siempre. Desde que el ser humano fue consciente de la importancia de la información y su manipulación para tener poder sobre otros seres humanos. Pero en el siglo XXI, le hemos puesto nuevos nombres, como teorías de la conspiración o fake news, a algo que siempre ha estado ahí. Y siempre se ha valido de los medios de comunicación del momento. En la actualidad, quien se lleva todas las culpas son las redes sociales. Y, cómo no, la inteligencia artificial. Pero, como toda herramienta, puede usarse para el bien y para el mal. Es más. Hay quien utiliza la IA para combatir la desinformación en Internet.
La inteligencia artificial y la tecnología digital pueden, en general, contribuir a frenar el impacto del cambio climático con nuevas innovaciones, pero lo más importante ahora mismo es que sean capaces de controlar sus emisiones de gases de efecto invernadero, así como de los desechos electrónicos.
Científicos españoles han participado en este estudio aportando datos clave sobre la naturaleza de uno de estos peculiares eventos, llamado AT 2021hdr. Con la intención de comprender mejor el sistema y optimizar sus modelos, planean continuar las observaciones, al tiempo que analizan la galaxia donde se encuentra.
Con una aplicación para teléfonos inteligentes, junto con un dispositivo impreso en 3D, se ha desarrollado un sistema que mide de forma rápida y económica el contenido de nitrógeno y clorofila en las plantas de cultivo, como por ejemplo soja, arroz, maíz, e incluso flores. Esta herramienta busca reducir el uso indiscriminado de fertilizantes, contribuyendo así a la protección del ambiente, al tiempo que optimiza el rendimiento agrícola. La tecnología ya está disponible para uso educativo.
La startup SiPhox, fundada por dos ex investigadores del MIT, ha desarrollado un chip fotónico integrado para realizar análisis de sangre de alta calidad en el hogar.