En los últimos años hemos visto cómo el gigante del buscador y la “startup” respaldada por Microsoft han medido sus fuerzas lanzamiento tras lanzamiento. Google presentó esta semana el “Modo de pensamiento de Gemini 2.0 Flash”, una apuesta que, por fin, parecía estar a la altura del modelo o1 de OpenAI. Pues bien, acaban de aparecer en escena los nuevos modelos o3 y o3 mini de OpenAI.
OpenAI presenta sus nuevos modelos de razonamiento
Lo último de los creadores de ChatGPT es capaz de ofrecer un nivel de razonamiento más avanzado que la versión inicial. Al igual que el modelo o1 que conocimos en septiembre de este año, el nuevo modelo pasará algo de tiempo “pensando” la respuesta. No será tan rápido como las versiones GPT, pero su ventaja es que será capaz de resolver problemas más complejos en varios pasos.
Ciertamente, los modelos de razonamiento son ideales para todo. De hecho, el ámbito de la IA está creciendo tanto que hay alternativas orientadas a casos de uso. Por ejemplo, si buscamos un modelo de respuestas rápidas para impulsar un chatbot de atención al cliente, no elegiríamos o3, sino algo como GPT-4o mini. Si lo que buscamos en precisión en física y matemática, puede que o3 sea la elección correcta.
Una forma interesante de analizar el alcance y las posibilidades de un modelo es contemplarlo a la luz de los benchmarks. Durante la presentación, OpenAI ha presentó dos puntos de referencia de programación. Como podemos ver en las imágenes, o3 mejora a o1 en 22,8 puntos porcentuales en SWE-Bench Verified. En este punto de referencia alcanza 71.7 puntos en frente a los 84.9 del modelo anterior.
En Codeforces, o1 alcanza una puntuación de 1891 y o3 de 2727. Como decimos, estos modelos son útiles para muchas tareas complejas. Si nos enfocamos en puntos de referencia de matemáticas, en el American Invitational Mathematics Exam 2024, o1 registra una puntuación del 83.3 %. o3, por su parte, presume de un 96.7 %, fallando a una única pregunta.
Cabe señalar que la decisión de llamar al modelo o3 en lugar de o2 parece no tener que ver con un salto en sus capacidades (o de un movimiento motivado por el marketing). En realidad, según The Information, se debe a evitar problemas de marcas registradas. OpenAI habría decidido saltarse un número porque o2 es una marca registrada de un proveedor de telecomunicaciones británico.
Tendremos que esperar para acceder al nuevo modelo de razonamiento insignia de OpenAI, o3, como a su modelo más pequeño y rápido, o3 mini. De momento, los investigadores de seguridad pueden apuntarse en una lista de esperar para probar el modelo. La firma espera lanzarlos al público más adelante, pero no está claro cuándo acabarán llegando (y si bajo qué suscripciones).
Publicación de noticias sobre gadgets y tecnología. Últimas tecnologías en electrónica de consumo y novedades tecnológicas en móviles, tablets, informática...
¿Sabías que una sola imagen puede identificarte en cuestión de segundos? En el Reino Unido, esta realidad ya es posible gracias a las tecnologías de reconocimiento facial. Pero, ¿a qué precio?
Los coches y los aviones pueden desplazarse ya de forma autónoma sin necesidad de intervención humana, así que seguramente la automatización también puede llegar a los mares. Nuestro experto Andy Maykol Pinto surca a través de los hechos.
¿Cómo abordar los desafíos en privacidad de la información que plantea el avance de la inteligencia artificial? ¿Qué aplicaciones tienen las llamadas redes neuronales de difusión? ¿Cómo un sistema que ocupa imágenes satelitales puede identificar patrones y alertar de cambios, por ejemplo, en un bosque? Estos son algunos de los temas que abordan los trabajos de académicos y académicas de la UC, que son presentados en una de las conferencias más importantes sobre machine learning en el mundo.
En el futuro, la administración de fármacos terapéuticos exactamente en el lugar del cuerpo donde se necesitan podría ser tarea de robots en miniatura. Un nuevo estudio ha probado estas esferas microscópicas en ratones con tumores de vejiga, y lograron resultados prometedores.
El método “PRoC3S” ayuda a un LLM a crear un plan de acción viable probando cada paso en una simulación. Esta estrategia podría eventualmente ayudar a los robots domésticos a completar tareas más ambiguas.
Un diagnóstico realizado en 384 fincas lecheras de Ubaté mostró que aunque sus operaciones diarias son eficientes –con una producción diaria de 1 millón de litros de leche– carecen de herramientas que les permitan sistematizar la información productiva para evaluar e identificar a los animales que limitan su capacidad, y de paso su rentabilidad, por ejemplo. Este aporte abre la puerta a nuevas estrategias para mejorar la competitividad en la región, crucial para el abastecimiento lácteo del país.