En la clásica serie de dibujos animados “Los Supersónicos”, Rosie, la criada robótica, pasa sin problemas de pasar la aspiradora por la casa a cocinar la cena y sacar la basura. Pero en la vida real, entrenar a un robot de uso general sigue siendo un gran desafío.
Por lo general, los ingenieros recopilan datos específicos de un robot y una tarea determinados, que utilizan para entrenar al robot en un entorno controlado. Sin embargo, recopilar estos datos es costoso y lleva mucho tiempo, y es probable que al robot le resulte difícil adaptarse a entornos o tareas que no haya visto antes.
Para entrenar mejores robots de propósito general, los investigadores del MIT desarrollaron una técnica versátil que combina una enorme cantidad de datos heterogéneos de muchas fuentes en un sistema que puede enseñar a cualquier robot una amplia gama de tareas.
Su método implica alinear datos de diversos dominios, como simulaciones y robots reales, y múltiples modalidades, incluidos sensores de visión y codificadores de posición de brazos robóticos, en un “lenguaje” compartido que un modelo de IA generativa puede procesar.
Al combinar una cantidad tan enorme de datos, este enfoque se puede utilizar para entrenar a un robot para que realice una variedad de tareas sin necesidad de comenzar a entrenarlo desde cero cada vez.
Este método podría ser más rápido y menos costoso que las técnicas tradicionales porque requiere muchos menos datos específicos de la tarea. Además, superó al entrenamiento desde cero en más del 20 por ciento en simulaciones y experimentos del mundo real.
“En robótica, la gente suele afirmar que no tenemos suficientes datos de entrenamiento. Pero, en mi opinión, otro gran problema es que los datos proceden de muchos dominios, modalidades y hardware de robots diferentes. Nuestro trabajo muestra cómo se podría entrenar a un robot con todos ellos juntos”, afirma Lirui Wang, estudiante de posgrado en ingeniería eléctrica y ciencias de la computación (EECS) y autor principal de un artículo sobre esta técnica.
Entre los coautores de Wang se encuentran el estudiante de posgrado de EECS Jialiang Zhao; Xinlei Chen, científico investigador de Meta; y el autor principal Kaiming He, profesor asociado de EECS y miembro del Laboratorio de Ciencias de la Computación e Inteligencia Artificial (CSAIL). La investigación se presentará en la Conferencia sobre sistemas de procesamiento de información neuronal.
Inspirado en los LLM
Una “política” robótica toma observaciones de sensores, como imágenes de cámara o mediciones propioceptivas que rastrean la velocidad y la posición de un brazo robótico, y luego le dice al robot cómo y dónde moverse.
Las políticas suelen entrenarse mediante aprendizaje por imitación, lo que significa que un humano demuestra acciones o teleopera un robot para generar datos, que se introducen en un modelo de IA que aprende la política. Debido a que este método utiliza una pequeña cantidad de datos específicos de la tarea, los robots suelen fallar cuando su entorno o tarea cambia.
Para desarrollar un mejor enfoque, Wang y sus colaboradores se inspiraron en grandes modelos de lenguaje como GPT-4.
Estos modelos se entrenan previamente con una enorme cantidad de datos de diversos idiomas y luego se perfeccionan alimentándolos con una pequeña cantidad de datos específicos de la tarea. El entrenamiento previo con una cantidad tan grande de datos ayuda a los modelos a adaptarse para desempeñarse bien en una variedad de tareas.
“En el ámbito del lenguaje, los datos son simplemente oraciones. En robótica, dada la heterogeneidad de los datos, si queremos realizar un preentrenamiento de manera similar, necesitamos una arquitectura diferente”, afirma.
Los datos robóticos adoptan muchas formas, desde imágenes de cámaras hasta instrucciones en lenguaje y mapas de profundidad. Al mismo tiempo, cada robot es mecánicamente único, con una cantidad y orientación diferente de brazos, pinzas y sensores. Además, los entornos en los que se recopilan los datos varían ampliamente.
Los investigadores del MIT desarrollaron una nueva arquitectura llamada Transformadores Preentrenados Heterogéneos (HPT) que unifica datos de estas variadas modalidades y dominios.
Colocaron un modelo de aprendizaje automático conocido como transformador en el centro de su arquitectura, que procesa las entradas de la visión y la propiocepción. Un transformador es el mismo tipo de modelo que forma la columna vertebral de los grandes modelos de lenguaje.
Los investigadores alinean los datos de la visión y la propiocepción en el mismo tipo de entrada, llamada token, que el transformador puede procesar. Cada entrada se representa con el mismo número fijo de tokens.
Luego, el transformador asigna todas las entradas a un espacio compartido y crece hasta convertirse en un modelo enorme y preentrenado a medida que procesa y aprende más datos. Cuanto más grande sea el transformador, mejor funcionará.
Un usuario solo necesita proporcionar a HPT una pequeña cantidad de datos sobre el diseño de su robot, su configuración y la tarea que desea que realice. Luego, HPT transfiere el conocimiento que el transformador ha adquirido durante el preentrenamiento para aprender la nueva tarea.
Permitiendo movimientos diestros
Uno de los mayores desafíos del desarrollo de HPT fue construir el conjunto de datos masivo para preentrenar el transformador, que incluía 52 conjuntos de datos con más de 200.000 trayectorias de robots en cuatro categorías, incluidos videos de demostración humanos y simulación.
Los investigadores también necesitaban desarrollar una forma eficiente de convertir las señales de propiocepción brutas de un conjunto de sensores en datos que el transformador pudiera manejar.
“La propiocepción es fundamental para permitir muchos movimientos diestros. Como la cantidad de elementos en nuestra arquitectura es siempre la misma, le damos la misma importancia a la propiocepción y a la visión”, explica Wang.
Cuando probaron el HPT, el rendimiento del robot mejoró en más del 20 por ciento en tareas de simulación y del mundo real, en comparación con el entrenamiento desde cero cada vez. Incluso cuando la tarea era muy diferente de los datos previos al entrenamiento, el HPT siguió mejorando el rendimiento.
“Este artículo ofrece un enfoque novedoso para entrenar una única política en múltiples implementaciones de robots. Esto permite entrenar en diversos conjuntos de datos, lo que permite que los métodos de aprendizaje de robots amplíen significativamente el tamaño de los conjuntos de datos con los que pueden entrenarse. También permite que el modelo se adapte rápidamente a nuevas implementaciones de robots, lo que es importante ya que continuamente se producen nuevos diseños de robots”, afirma David Held, profesor asociado del Instituto de Robótica de la Universidad Carnegie Mellon, que no participó en este trabajo.
En el futuro, los investigadores quieren estudiar cómo la diversidad de datos podría mejorar el rendimiento de HPT. También quieren mejorar HPT para que pueda procesar datos no etiquetados como GPT-4 y otros modelos de lenguaje de gran tamaño.
“Nuestro sueño es tener un cerebro robótico universal que se pueda descargar y utilizar en el robot sin necesidad de ningún tipo de entrenamiento. Aunque estamos en las primeras etapas, vamos a seguir trabajando duro y esperamos que la ampliación conduzca a un avance en las políticas robóticas, como sucedió con los grandes modelos lingüísticos”, afirma.
Este trabajo fue financiado, en parte, por la Amazon Greater Boston Tech Initiative y el Toyota Research Institute.
Promover la investigación, las innovaciones, la enseñanza y los eventos y las personas de interés periodístico del MIT a la comunidad del campus, los medios de comunicación y el público en general, Comunicar anuncios del Instituto, Publicar noticias de la comunidad para profesores, estudiantes, personal y ex alumnos del MIT. Proporcionar servicios de medios a los miembros de la comunidad, incluido el asesoramiento sobre cómo trabajar con periodistas, Responder a consultas de los medios y solicitudes de entrevistas...
La competencia entre OpenAI y otras compañías en el ámbito de la inteligencia artificial (IA) es una guerra sin cuartel. El lanzamiento de ChatGPT en noviembre de 2022 supuso un punto inflexión en esta industria, que se ha vuelto mucho más competitiva. Desde ese entonces, Google ha estado tratando de recuperar su liderazgo, pero la firma liderada por Sam Altman no le ha dado respiro.
¿Sabías que una sola imagen puede identificarte en cuestión de segundos? En el Reino Unido, esta realidad ya es posible gracias a las tecnologías de reconocimiento facial. Pero, ¿a qué precio?
Los coches y los aviones pueden desplazarse ya de forma autónoma sin necesidad de intervención humana, así que seguramente la automatización también puede llegar a los mares. Nuestro experto Andy Maykol Pinto surca a través de los hechos.
¿Cómo abordar los desafíos en privacidad de la información que plantea el avance de la inteligencia artificial? ¿Qué aplicaciones tienen las llamadas redes neuronales de difusión? ¿Cómo un sistema que ocupa imágenes satelitales puede identificar patrones y alertar de cambios, por ejemplo, en un bosque? Estos son algunos de los temas que abordan los trabajos de académicos y académicas de la UC, que son presentados en una de las conferencias más importantes sobre machine learning en el mundo.
En el futuro, la administración de fármacos terapéuticos exactamente en el lugar del cuerpo donde se necesitan podría ser tarea de robots en miniatura. Un nuevo estudio ha probado estas esferas microscópicas en ratones con tumores de vejiga, y lograron resultados prometedores.
El método “PRoC3S” ayuda a un LLM a crear un plan de acción viable probando cada paso en una simulación. Esta estrategia podría eventualmente ayudar a los robots domésticos a completar tareas más ambiguas.