Noticias Actualidad en procesos industriales

Dele visibilidad a su trayectoria académica

Participe en la convocatoria de trabajos inéditos de Virtual Pro.

Publicar Ahora

2024-10-28Una forma más rápida y mejor de entrenar robots de uso general

MIT |Inspirados por grandes modelos de lenguaje, los investigadores desarrollan una técnica de entrenamiento que reúne datos diversos para enseñar a los robots nuevas habilidades.

En la clásica serie de dibujos animados “Los Supersónicos”, Rosie, la criada robótica, pasa sin problemas de pasar la aspiradora por la casa a cocinar la cena y sacar la basura. Pero en la vida real, entrenar a un robot de uso general sigue siendo un gran desafío.

Por lo general, los ingenieros recopilan datos específicos de un robot y una tarea determinados, que utilizan para entrenar al robot en un entorno controlado. Sin embargo, recopilar estos datos es costoso y lleva mucho tiempo, y es probable que al robot le resulte difícil adaptarse a entornos o tareas que no haya visto antes.

Para entrenar mejores robots de propósito general, los investigadores del MIT desarrollaron una técnica versátil que combina una enorme cantidad de datos heterogéneos de muchas fuentes en un sistema que puede enseñar a cualquier robot una amplia gama de tareas.

Su método implica alinear datos de diversos dominios, como simulaciones y robots reales, y múltiples modalidades, incluidos sensores de visión y codificadores de posición de brazos robóticos, en un “lenguaje” compartido que un modelo de IA generativa puede procesar.

Al combinar una cantidad tan enorme de datos, este enfoque se puede utilizar para entrenar a un robot para que realice una variedad de tareas sin necesidad de comenzar a entrenarlo desde cero cada vez.

Este método podría ser más rápido y menos costoso que las técnicas tradicionales porque requiere muchos menos datos específicos de la tarea. Además, superó al entrenamiento desde cero en más del 20 por ciento en simulaciones y experimentos del mundo real.

“En robótica, la gente suele afirmar que no tenemos suficientes datos de entrenamiento. Pero, en mi opinión, otro gran problema es que los datos proceden de muchos dominios, modalidades y hardware de robots diferentes. Nuestro trabajo muestra cómo se podría entrenar a un robot con todos ellos juntos”, afirma Lirui Wang, estudiante de posgrado en ingeniería eléctrica y ciencias de la computación (EECS) y autor principal de un artículo sobre esta técnica.

Entre los coautores de Wang se encuentran el estudiante de posgrado de EECS Jialiang Zhao; Xinlei Chen, científico investigador de Meta; y el autor principal Kaiming He, profesor asociado de EECS y miembro del Laboratorio de Ciencias de la Computación e Inteligencia Artificial (CSAIL). La investigación se presentará en la Conferencia sobre sistemas de procesamiento de información neuronal.

Inspirado en los LLM

Una “política” robótica toma observaciones de sensores, como imágenes de cámara o mediciones propioceptivas que rastrean la velocidad y la posición de un brazo robótico, y luego le dice al robot cómo y dónde moverse.

Las políticas suelen entrenarse mediante aprendizaje por imitación, lo que significa que un humano demuestra acciones o teleopera un robot para generar datos, que se introducen en un modelo de IA que aprende la política. Debido a que este método utiliza una pequeña cantidad de datos específicos de la tarea, los robots suelen fallar cuando su entorno o tarea cambia.

Para desarrollar un mejor enfoque, Wang y sus colaboradores se inspiraron en grandes modelos de lenguaje como GPT-4.

Estos modelos se entrenan previamente con una enorme cantidad de datos de diversos idiomas y luego se perfeccionan alimentándolos con una pequeña cantidad de datos específicos de la tarea. El entrenamiento previo con una cantidad tan grande de datos ayuda a los modelos a adaptarse para desempeñarse bien en una variedad de tareas.

“En el ámbito del lenguaje, los datos son simplemente oraciones. En robótica, dada la heterogeneidad de los datos, si queremos realizar un preentrenamiento de manera similar, necesitamos una arquitectura diferente”, afirma.

Los datos robóticos adoptan muchas formas, desde imágenes de cámaras hasta instrucciones en lenguaje y mapas de profundidad. Al mismo tiempo, cada robot es mecánicamente único, con una cantidad y orientación diferente de brazos, pinzas y sensores. Además, los entornos en los que se recopilan los datos varían ampliamente.

Los investigadores del MIT desarrollaron una nueva arquitectura llamada Transformadores Preentrenados Heterogéneos (HPT) que unifica datos de estas variadas modalidades y dominios.

Colocaron un modelo de aprendizaje automático conocido como transformador en el centro de su arquitectura, que procesa las entradas de la visión y la propiocepción. Un transformador es el mismo tipo de modelo que forma la columna vertebral de los grandes modelos de lenguaje.

Los investigadores alinean los datos de la visión y la propiocepción en el mismo tipo de entrada, llamada token, que el transformador puede procesar. Cada entrada se representa con el mismo número fijo de tokens.

Luego, el transformador asigna todas las entradas a un espacio compartido y crece hasta convertirse en un modelo enorme y preentrenado a medida que procesa y aprende más datos. Cuanto más grande sea el transformador, mejor funcionará.

Un usuario solo necesita proporcionar a HPT una pequeña cantidad de datos sobre el diseño de su robot, su configuración y la tarea que desea que realice. Luego, HPT transfiere el conocimiento que el transformador ha adquirido durante el preentrenamiento para aprender la nueva tarea.

Permitiendo movimientos diestros

Uno de los mayores desafíos del desarrollo de HPT fue construir el conjunto de datos masivo para preentrenar el transformador, que incluía 52 conjuntos de datos con más de 200.000 trayectorias de robots en cuatro categorías, incluidos videos de demostración humanos y simulación.

Los investigadores también necesitaban desarrollar una forma eficiente de convertir las señales de propiocepción brutas de un conjunto de sensores en datos que el transformador pudiera manejar.

“La propiocepción es fundamental para permitir muchos movimientos diestros. Como la cantidad de elementos en nuestra arquitectura es siempre la misma, le damos la misma importancia a la propiocepción y a la visión”, explica Wang.

Cuando probaron el HPT, el rendimiento del robot mejoró en más del 20 por ciento en tareas de simulación y del mundo real, en comparación con el entrenamiento desde cero cada vez. Incluso cuando la tarea era muy diferente de los datos previos al entrenamiento, el HPT siguió mejorando el rendimiento.

“Este artículo ofrece un enfoque novedoso para entrenar una única política en múltiples implementaciones de robots. Esto permite entrenar en diversos conjuntos de datos, lo que permite que los métodos de aprendizaje de robots amplíen significativamente el tamaño de los conjuntos de datos con los que pueden entrenarse. También permite que el modelo se adapte rápidamente a nuevas implementaciones de robots, lo que es importante ya que continuamente se producen nuevos diseños de robots”, afirma David Held, profesor asociado del Instituto de Robótica de la Universidad Carnegie Mellon, que no participó en este trabajo.

En el futuro, los investigadores quieren estudiar cómo la diversidad de datos podría mejorar el rendimiento de HPT. También quieren mejorar HPT para que pueda procesar datos no etiquetados como GPT-4 y otros modelos de lenguaje de gran tamaño.

“Nuestro sueño es tener un cerebro robótico universal que se pueda descargar y utilizar en el robot sin necesidad de ningún tipo de entrenamiento. Aunque estamos en las primeras etapas, vamos a seguir trabajando duro y esperamos que la ampliación conduzca a un avance en las políticas robóticas, como sucedió con los grandes modelos lingüísticos”, afirma.

Este trabajo fue financiado, en parte, por la Amazon Greater Boston Tech Initiative y el Toyota Research Institute.

Autor

MIT
Autor
MIT

Promover la investigación, las innovaciones, la enseñanza y los eventos y las personas de interés periodístico del MIT a la comunidad del campus, los medios de comunicación y el público en general, Comunicar anuncios del Instituto, Publicar noticias de la comunidad para profesores, estudiantes, personal y ex alumnos del MIT. Proporcionar servicios de medios a los miembros de la comunidad, incluido el asesoramiento sobre cómo trabajar con periodistas, Responder a consultas de los medios y solicitudes de entrevistas...


2024-10-31
China ha pisado el acelerador: el fabricante de CPU Loongson ya compite con los 7 nm de Intel y AMD

Para China los procesadores de Loongson son críticos debido a que los emplea para aplicaciones militares, además de utilizarlos en otros escenarios. Tanto es así que su valor estratégico ha llevado a este país asiático a prohibir su exportación a Rusia, un socio al que le vendrían de perlas para aliviar la presión a la que está siendo sometido por Occidente en su conjunto. Durante muchos meses Loongson pudo evadir las sanciones de EEUU y continuó mejorando sus microprocesadores, pero a principios de 2023 el panorama se le complicó drásticamente.

2024-10-31
Desarrollan topógrafo portátil que detecta problemas visuales

En el mundo hay mil millones de personas con algún grado de deterioro visual que no ha sido tratado o que pudo haberse evitado con un diagnóstico oportuno y tratamiento adecuado. En México se calcula que hay dos millones 237 mil individuos con deficiencia visual, cifra que se explica porque, quienes se dedican a la optometría en el país, enfrentan diversos obstáculos para realizar su trabajo de forma completa.

2024-10-30
La imagen preclínica multimodal acerca la ciencia a la medicina personalizada

El IIBM-CSIC-UAM ha instalado una tecnología de vanguardia que combina la imagen de resonancia magnética y la de tomografía por emisión de positrones

2024-10-03
Cómo la IA está mejorando las simulaciones con técnicas de muestreo más inteligentes

Los investigadores del MIT CSAIL crearon un método impulsado por IA para el muestreo de baja discrepancia, que distribuye uniformemente los puntos de datos para aumentar la precisión de la simulación.

2024-10-01
Ayudando a los robots a centrarse en los objetos que importan

Un nuevo método llamado Clio permite a los robots mapear rápidamente una escena e identificar los elementos que necesitan para completar un conjunto determinado de tareas.

2024-10-01
La prótesis del futuro simplifica las actividades cotidianas

La primera mano robótica del mundo controlada magnéticamente permite a las personas amputadas realizar tareas habituales.