El resguardo de la privacidad de los datos y un modelo multilingüe a gran escala que busca mejorar el desarrollo de sistemas de inteligencia artificial multimodal, además de la detección de alteraciones en bosques inducidas por actividades humanas, son los temas que están presentando académicos del Instituto de Ingeniería Matemática y Computacional (IMC UC) en NeurIPS 2024, una de las conferencias más importantes sobre machine learning -disciplina del campo de la Inteligencia Artificial que, a través de algoritmos, dota a los ordenadores de la capacidad de identificar patrones en datos masivos y elaborar predicciones- y que se realiza en Vancouver, Canadá.
“Si consideramos las áreas de investigación que abarca el IMC, se puede decir que esta es una de las conferencias más masivas. Su volumen hace que sea un espacio de divulgación muy grande para los trabajos aceptados. Además, la cantidad de gente que va y las posibilidades de interactuar con investigadores afines hacen que sea una buena instancia para participar”, comenta el académico del IMC Cristóbal Guzmán e investigador del Centro Nacional de Inteligencia Artificial (CENIA).
El profesor fue aceptado con tres trabajos en los que es coautor: “Private Algorithms for Stochastic Saddle Points and Variational Inequalities: Beyond Euclidean Geometry”; “Differentially Private Optimization with Sparse Gradients” y “Public-data Assisted Private Stochastic Optimization: Power and Limitation”. Cristóbal Guzmán, quien es doctor en algoritmos, combinatoria y optimización, explica que los tres trabajos están cruzados por una temática común: la privacidad diferencial.
Esta área ha dominado su labor en el proyecto Fondecyt que actualmente lleva adelante ("Algorithmic Stability and Differential Privacy in Optimization, Machine Learning and Market Equilibria") y sus orígenes son relativamente recientes. “La definición de privacidad diferencial apareció por primera vez en artículos publicados a comienzos de la década del 2000. Esos papers empujaron esta noción que viene del mundo de la criptografía y mucha de la gente que trabajó en esos estudios terminó incorporándose a laboratorios de investigación de empresas tecnológicas como Google o Facebook”, explica.
Garantizar la protección de datos
Como detalla el profesor Cristóbal Guzmán, “lo que se busca estudiar es cómo entrenar modelos de aprendizaje automático con esta restricción de privacidad diferencial. En el fondo, lo que se pretende es garantizar que estos modelos que aprenden a partir de información, tengan garantías de protección de los datos originales que se utilizaron para construirlos”. Este resguardo de la privacidad es importante, agrega el académico, porque en modelos con muchos parámetros -como los que se generan para las redes neuronales- se ha descubierto que tienden a memorizar información confidencial de los usuarios.
“Por ejemplo, existen métodos como el ataque de pertenencia que intentan determinar si es que algún individuo en particular fue utilizado en ese conjunto de entrenamiento, o que incluso apuntan a extraer información. En modelos de lenguaje, buscan recoger frases u oraciones que puedan contener información confidencial como un RUT o un número de teléfono, por lo que de alguna manera se podría identificar a personas a partir de estos ataques”, comenta el investigador. Si bien estas vulnerabilidades han sido confirmadas de manera experimental, la pregunta que hoy domina este campo es qué se puede hacer para prevenirlos y anticiparse a otros que podrían surgir más adelante: “Nadie sabe a futuro que otras técnicas van a surgir, por lo que uno intenta proveer una definición que garantice que ningún tipo de ataque que dependa de información individual de una persona sea ejecutable a partir de un modelo”.
Esta preocupación ha llevado a que la investigación sobre la privacidad diferencial pase del estudio de sus implicancias teóricas al desarrollo de aplicaciones concretas. “Producto de las inquietudes actuales que existen, ya hay muchas empresas que han incorporado el tema y están creando equipos de trabajo que se abocan específicamente a esta área”, explica Nicolás Guzmán, quien en 2023 viajó a Estados Unidos y durante seis meses fue investigador visitante en un grupo de Google enfocado en algoritmos usados para resguardar la privacidad de los datos. El académico, quien actualmente sigue colaborando con esos expertos, añade que también hay instituciones públicas que están adoptando estos métodos.
"(...) lo que se pretende es garantizar que estos modelos que aprenden a partir de información, tengan garantías de protección de los datos originales que se utilizaron para construirlos”, explica el académico del IMC e investigador del Centro Nacional de Inteligencia Artificial (CENIA), Cristóbal Guzmán. (Crédito imagen: Pixabay)
Redes neuronales generativas y búsqueda de respuestas visuales
Mircea Petrache, académico IMC en cargo compartido con la Facultad de Matemáticas UC e investigador de CENIA, es experto en áreas como análisis geométrico y cálculo de variaciones, y explica que en los últimos dos a tres años las llamadas redes neuronales de difusión han experimentado un gran auge, con aplicaciones en ámbitos que van desde la generación de imágenes realistas hasta el diseño de moléculas para desarrollos en farmacología y bioquímica.
En el encuentro, el profesor presentará el trabajo en el que es coautor “Fisher Flow Matching for Generative Modeling over Discrete Data”. “En 2023, finalmente se han logrado formular los primeros modelos difusivos que generan datos discretos con eficacia. En este paper que escribí con un team de la Universidad de Oxford, usando la estructura riemanniana de los espacios de medidas de probabilidad rediseñamos el modelo difusivo para datos discretos más rápido que se conoce. Se llama Flow Matching y nuestra contribución fue mejorarlo incorporando nuevas ideas de geometría de la información”, detalla.
Por su parte, Jocelyn Dunstan, académica IMC en cargo compartido con el Departamento de Ciencia de la Computación UC (DCC UC) e investigadora del Instituto Milenio Fundamentos de los Datos (IMFD), participa junto a autores de 28 países en el paper “CVQA:Culturally-diverse Multilingual Visual Question Answering Benchmark”. El trabajo aborda la búsqueda de respuestas visuales (VQA, por su sigla en inglés), un componente clave de la llamada inteligencia artificial multimodal, la cual se caracteriza por ser capaz de procesar e integrar datos a partir de texto, imágenes, audio y video.
Este tipo de inteligencia artificial se inspira en la forma en que los humanos usan sus sentidos para percibir e interactuar con el mundo, y ofrece una forma más natural e intuitiva de comunicarse con la tecnología. Hoy algunos ejemplos de aplicación se pueden ver en el asistente virtual Siri de Apple y la plataforma de generación de texto GPT-4 de OpenAI, los cuales han demostrado la capacidad de la IA para crear y comprender contenidos complejos.
Los modelos de VQA se usan, precisamente, para poner a prueba la capacidad de los sistemas de inteligencia artificial multimodal para entender y razonar en base al conocimiento existente en los datos visuales y de texto. Sin embargo, uno de los problemas es que la mayoría de ellos utiliza conjuntos de datos que se centran en el inglés y sólo algunas de las demás principales lenguas del mundo, además de incorporar imágenes que suelen estar centradas en Occidente. Si bien existen intentos recientes por subsanar este déficit, los sets de datos aún carecen de diversidad. Por eso, Jocelyn Dunstan y los demás coautores proponen CVQA, un modelo multilingüe a gran escala diseñado para cubrir un abanico más rico de lenguas y culturas.
Para elaborarlo, los autores incluyeron a hablantes nativos y expertos culturales en el proceso de recopilación de datos. Como resultado, CVQA representa las culturas de 30 países y 31 idiomas distintos, abarcando 10 mil preguntas. “Lo que se busca es evaluar cuánto saben los modelos de aspectos culturales de las fotos que se muestran. Todas las imágenes tienen asociadas preguntas en el idioma del país y en inglés”, explica la profesora Dunstan.
Detectando el impacto humano en los bosques
Otro trabajo es “Enhanced Detection of Human-Driven Forest Alterations using Echo State Networks”, entre cuyos autores están los académicos Paula Aguirre (IMC e investigadora de CENIA) y Rodrigo Carrasco (IMC / Departamento de Ingeniería Industrial y de Sistemas UC). Además, participan el estudiante Tomás Couso del DCC UC y Javier Lopatin, docente de la Facultad de Ingeniería y Ciencias de la Universidad Adolfo Ibáñez.
“En esta colaboración, Tomás realizó un estudio enfocado en detectar alteraciones en bosques inducidas por actividades humanas, como parte de su investigación de pregrado bajo la dirección de Paula Aguirre y mía, en el contexto de un proyecto FONDEF en que yo participaba”, relata Rodrigo Carrasco. Tal como cuenta el académico, en el paper se utilizaron Echo State Networks (ESN) como una herramienta para identificar patrones y luego alertar de cambios, ocupando imágenes satelitales para identificar de manera automática alteraciones en la vegetación de los bosques de la zona central de Chile atribuibles a actividades humanas como la deforestación.
“Combinando la eficiencia de las ESN para analizar series de tiempo y un sistema nuevo para comparación y detección, logramos predecir valores del Índice de Vegetación de Diferencia Normalizada (NDVI) y detectar desviaciones vinculadas con cambios humanos en el entorno forestal, incluso bajo condiciones de estrés climático, como sequías, que hace más difícil la detección”, explica el profesor Carrasco. Según el investigador, la metodología propuesta “alcanzó una buena precisión en la identificación de eventos de cambio, con especial capacidad para diferenciar entre disturbios naturales y aquellos causados por intervención humana, lo cual representa un avance en la monitorización de ecosistemas y en la toma de decisiones para la conservación de la biodiversidad y el manejo sostenible del suelo”.
Coloquialmente conocida como «la Católica», es una universidad privada tradicional de Chile, una de las trece universidades católicas en el sistema universitario chileno y de las seis universidades católicas tradicionales del país. Fue creada hace 131 años, el 21 de junio de 1888, por el arzobispado de Santiago de Chile. La Santa Sede le concedió el título de «Pontificia» en febrero de 1930. Al ser una universidad pontificia, depende directamente de la Santa Sede y de la Iglesia católica chilena, por medio del arzobispado de Santiago.
En el futuro, la administración de fármacos terapéuticos exactamente en el lugar del cuerpo donde se necesitan podría ser tarea de robots en miniatura. Un nuevo estudio ha probado estas esferas microscópicas en ratones con tumores de vejiga, y lograron resultados prometedores.
El método “PRoC3S” ayuda a un LLM a crear un plan de acción viable probando cada paso en una simulación. Esta estrategia podría eventualmente ayudar a los robots domésticos a completar tareas más ambiguas.
Un diagnóstico realizado en 384 fincas lecheras de Ubaté mostró que aunque sus operaciones diarias son eficientes –con una producción diaria de 1 millón de litros de leche– carecen de herramientas que les permitan sistematizar la información productiva para evaluar e identificar a los animales que limitan su capacidad, y de paso su rentabilidad, por ejemplo. Este aporte abre la puerta a nuevas estrategias para mejorar la competitividad en la región, crucial para el abastecimiento lácteo del país.
Para China los procesadores de Loongson son críticos debido a que los emplea para aplicaciones militares, además de utilizarlos en otros escenarios. Tanto es así que su valor estratégico ha llevado a este país asiático a prohibir su exportación a Rusia, un socio al que le vendrían de perlas para aliviar la presión a la que está siendo sometido por Occidente en su conjunto. Durante muchos meses Loongson pudo evadir las sanciones de EEUU y continuó mejorando sus microprocesadores, pero a principios de 2023 el panorama se le complicó drásticamente.
En el mundo hay mil millones de personas con algún grado de deterioro visual que no ha sido tratado o que pudo haberse evitado con un diagnóstico oportuno y tratamiento adecuado. En México se calcula que hay dos millones 237 mil individuos con deficiencia visual, cifra que se explica porque, quienes se dedican a la optometría en el país, enfrentan diversos obstáculos para realizar su trabajo de forma completa.
El IIBM-CSIC-UAM ha instalado una tecnología de vanguardia que combina la imagen de resonancia magnética y la de tomografía por emisión de positrones