logo móvil
Contáctanos
Portada

Imagen. / Wikimedia Commons

2025-11-14

Enseñar a modelos lingüísticos grandes cómo absorber nuevos conocimientos


En un aula del MIT, un profesor imparte una clase magistral mientras los estudiantes toman diligentemente apuntes que releerán más tarde para estudiar e interiorizar la información clave antes de un examen.

Los humanos saben aprender información nueva, pero los modelos de lenguaje complejos no pueden hacerlo de la misma manera. Una vez que un modelo de lenguaje complejo (LLM) completamente entrenado se ha implementado, su «cerebro» es estático y no puede adaptarse permanentemente a nuevos conocimientos.

Esto significa que si un usuario le dice algo importante a un LLM hoy, este no recordará esa información la próxima vez que esa persona inicie una nueva conversación con el chatbot.

Un nuevo enfoque desarrollado por investigadores del MIT permite a los LLM actualizarse de forma que internalicen permanentemente la nueva información. Al igual que un estudiante, el LLM genera sus propias hojas de estudio a partir de la información introducida por el usuario, que utiliza para memorizar actualizando su funcionamiento interno.

El modelo genera múltiples autocorrecciones para aprender a partir de una entrada, y luego aplica cada una para ver cuál mejora más su rendimiento. Este proceso de prueba y error le enseña al modelo la mejor manera de entrenarse.

Los investigadores descubrieron que este enfoque mejoraba la precisión de los LLM en tareas de respuesta a preguntas y reconocimiento de patrones, y permitía que un modelo pequeño superara a LLM mucho más grandes.

Aunque aún existen limitaciones que deben superarse, esta técnica podría algún día ayudar a los agentes de inteligencia artificial a adaptarse de forma consistente a nuevas tareas y a alcanzar objetivos cambiantes en entornos en constante evolución.

“Al igual que los humanos, los sistemas de IA complejos no pueden permanecer estáticos durante toda su vida útil. Estos LLM no se implementan en entornos estáticos. Constantemente se enfrentan a nuevas entradas de los usuarios. Queremos crear un modelo que sea un poco más parecido a un humano, uno que pueda seguir mejorando”, dice Jyothish Pari, estudiante de posgrado del MIT y coautor principal de un artículo sobre esta técnica.

En el artículo colaboran el coautor principal Adam Zweiger, estudiante de pregrado del MIT; los estudiantes de posgrado Han Guo y Ekin Akyürek; y los autores principales Yoon Kim, profesor asociado del Departamento de Ingeniería Eléctrica e Informática (EECS) y miembro del Laboratorio de Ciencias de la Computación e Inteligencia Artificial (CSAIL), y Pulkit Agrawal, profesor asociado de EECS y miembro del CSAIL. La investigación se presentará en la Conferencia sobre Sistemas de Procesamiento de Información Neuronal.

Enseñar al modelo a aprender

Los modelos lineales de aprendizaje (LLM) son modelos de redes neuronales con miles de millones de parámetros, llamados pesos, que contienen el conocimiento del modelo y procesan las entradas para realizar predicciones. Durante el entrenamiento, el modelo adapta estos pesos para aprender nueva información contenida en sus datos de entrenamiento.

Pero una vez implementado, los pesos son estáticos y ya no se pueden actualizar de forma permanente.

Sin embargo, los modelos de aprendizaje automático (LLM) son muy eficaces en un proceso denominado aprendizaje contextual, en el que un modelo entrenado aprende una nueva tarea al observar algunos ejemplos. Estos ejemplos guían las respuestas del modelo, pero el conocimiento desaparece antes de la siguiente conversación.

Los investigadores del MIT querían aprovechar las potentes capacidades de aprendizaje contextual de un modelo para enseñarle a actualizar permanentemente sus pesos cuando se encontrara con nuevos conocimientos.

El marco que desarrollaron, llamado SEAL (por "modelos de aprendizaje automático autoajustables"), permite que un modelo de aprendizaje automático genere nuevos datos sintéticos a partir de una entrada y, posteriormente, determine la mejor manera de adaptarse y aprender de dichos datos. Cada dato sintético constituye una autoedición que el modelo puede aplicar.

En el caso del lenguaje, el LLM crea datos sintéticos reescribiendo la información, y sus implicaciones, de un texto de entrada. Esto es similar a cómo los estudiantes elaboran resúmenes de estudio reescribiendo y resumiendo el contenido original de las clases.

El modelo LLM repite este proceso varias veces y luego se autoevalúa en cada edición para determinar cuál produjo la mayor mejora en el rendimiento en una tarea posterior, como responder preguntas. Utiliza un método de ensayo y error conocido como aprendizaje por refuerzo, donde recibe una recompensa por la mayor mejora en el rendimiento.

Luego, el modelo memoriza la mejor hoja de estudio actualizando sus ponderaciones para internalizar la información de esa autoedición.

“Nuestra esperanza es que el modelo aprenda a crear el mejor tipo de hoja de estudio —una que tenga la longitud adecuada y la diversidad de información apropiada— de manera que la actualización del modelo en función de ella dé como resultado un mejor modelo”, explica Zweiger.

Elegir el mejor método

Su marco de trabajo también permite que el modelo elija cómo quiere aprender la información. Por ejemplo, el modelo puede seleccionar los datos sintéticos que desea utilizar, la velocidad de aprendizaje y el número de iteraciones de entrenamiento.

En este caso, el modelo no solo genera sus propios datos de entrenamiento, sino que también configura la optimización que aplica esa autoedición a sus pesos.

“Como humanos, sabemos cómo aprendemos mejor. Queremos otorgar esa misma capacidad a los grandes modelos de lenguaje. Al proporcionar al modelo la capacidad de controlar cómo procesa esta información, puede determinar la mejor manera de analizar todos los datos que recibe”, afirma Pari.

SEAL superó a varios métodos de referencia en diversas tareas, incluyendo el aprendizaje de una nueva habilidad a partir de unos pocos ejemplos y la incorporación de conocimientos de un texto. En la respuesta a preguntas, SEAL mejoró la precisión del modelo en casi un 15 % y, en algunas tareas de aprendizaje de habilidades, aumentó la tasa de éxito en más de un 50 %.

Pero una limitación de este enfoque es un problema llamado olvido catastrófico: a medida que el modelo se adapta repetidamente a nueva información, su rendimiento en tareas anteriores disminuye gradualmente.

Los investigadores planean mitigar el olvido catastrófico en trabajos futuros. También quieren aplicar esta técnica en un entorno multiagente donde varios modelos de aprendizaje de aprendizaje se entrenan entre sí.

“Una de las principales barreras para que los modelos de aprendizaje automático (LLM) puedan realizar investigación científica significativa es su incapacidad para actualizarse a partir de la información nueva que reciben. Si bien aún falta mucho para que existan modelos autoajustables completamente implementados, esperamos que los sistemas capaces de aprender de esta manera puedan superar este obstáculo y contribuir al avance de la ciencia”, afirma Zweiger.

Este trabajo cuenta con el apoyo, en parte, de la Oficina de Investigación del Ejército de EE. UU., el Acelerador de IA de la Fuerza Aérea de EE. UU., el Fondo Stevens para MIT UROP y el Laboratorio de IA MIT-IBM Watson.

Autor

Autor
Imagen MIT

MIT

Promover la investigación, las innovaciones, la enseñanza y los eventos y las personas de interés periodístico del MIT a la comunidad del campus, los medios de comunicación y el público en general, Comunicar anuncios del Instituto, Publicar noticias de la comunidad para profesores, estudiantes, personal y ex alumnos del MIT. Proporcionar servicios de medios a los miembros de la comunidad, incluido el asesoramiento sobre cómo trabajar con periodistas, Responder a consultas de los medios y solicitudes de entrevistas...

Noticias más leídas

Temas Virtualpro