OpenAI sacude el panorama de la IA con o3, un modelo que rompe marcas en el exigente benchmark ARC-AGI. ¿El logro? Un 75.7% de acierto con presupuesto moderado y 87.5% con mucha más potencia, dejando atrás a GPT-4. La gran novedad radica en su capacidad de generar y ejecutar “programas” sobre la marcha, adaptándose a tareas nunca vistas. Aunque no es la famosa “AGI”, o3 confirma que la adaptabilidad es la nueva frontera de la IA. ARC Prize ya prepara ARC-AGI-2 para subir aún más el listón y ponernos a todos con los ojos bien abiertos ante la próxima revolución.
Por Jordi Segura
¡Hola! Soy Jordi Segura, y si ya me conoces de mis artículos sobre inteligencia artificial, sabrás que me encanta compartir los últimos avances tecnológicos de una manera cercana, con espíritu divulgativo y sin perder ese toque humano que tanto valoro.
Hoy quiero contarte algo que está dando de qué hablar en toda la comunidad tech: la participación de OpenAI en el ARC Prize (un concurso y a la vez benchmark muy exigente) con su nuevo sistema, o3. ¿Por qué es tan importante? Porque se trata de un salto sorprendente en la capacidad de las IA para adaptarse a tareas totalmente nuevas. Te lo explico paso a paso para que no necesites ser un ingeniero de datos experto, pero sí puedas entender por qué este avance está sacudiendo nuestro “mapa mental” de lo que la IA puede llegar a hacer.
El ARC Prize nació con el objetivo de poner a prueba la “inteligencia general” de los modelos de IA. Habitualmente, muchos benchmarks (pruebas para medir la capacidad de las inteligencias artificiales) se saturan rápido: se entrena una IA, se obtiene un porcentaje de aciertos muy alto y, listo, parece que se ha resuelto el problema. Pero no reflejan bien si la IA entiende de verdad lo que hace, ni si puede adaptarse a nuevas reglas o contextos que no estaban en sus datos de entrenamiento.
• ARC-AGI (Adaptación Razonada a Cambios) es una parte crucial de estos retos: propone tareas que son muy fáciles para un humano curioso, pero endiabladamente complicadas para una IA que solo memoriza patrones.
• El prize (premio) funciona como un ‘faro’ que guía a la comunidad de investigadores en la dirección de una inteligencia más general y adaptable.
Hasta ahora, grandes modelos de lenguaje como GPT-4 habían conseguido avances modestos en este tipo de pruebas. Sin embargo, OpenAI dio la campanada con o3 al obtener resultados nunca vistos.
Cuando hablamos de “resultados nunca vistos”, nos referimos a un 75.7% de acierto en el conjunto “semi-privado” de ARC-AGI dentro del límite de coste establecido (unos 10.000 dólares en ejecución). Y si decidían echar la casa por la ventana con más de 1000 muestras (un modo “low-efficiency” que multiplicaba el cómputo por 172), llegaban a un 87.5%. Para ponerlo en perspectiva, GPT-4 apenas alcanzó un 5% en pruebas parecidas.
• Coste humano vs. coste de o3: Resolver una tarea ARC a mano puede costar alrededor de 5 dólares (contando lo que se paga a un anotador humano). En el caso de o3, incluso en su modo más barato, la cosa ronda los 17-20 dólares por tarea. Esto significa que, a día de hoy, aún sale más barato poner a una persona frente a estos retos. Pero los costes de la IA bajan rápido; en cuestión de meses podrían ponerse a la par (o incluso ser más competitivos).
• La novedad real: Lo interesante no es solo el porcentaje, sino la adaptación a tareas completamente nuevas. Es algo que los modelos previos no lograban. No bastaba con “entrenar más y más grande”: hacía falta otro planteamiento.
¿Y cuál es ese enfoque distinto? Pues nada menos que la habilidad de generar y evaluar “programas” (o cadenas de razonamiento) de manera iterativa. Aquí entra en juego una suerte de “búsqueda guiada” en el espacio de todas las posibles secuencias de tokens (lo que OpenAI denomina “program search”). En otras palabras, la IA ya no se limita a lanzar respuestas basadas en su entrenamiento previo; ahora explora, combina y prueba múltiples caminos de razonamiento hasta dar con uno que encaje.
Si llevas tiempo leyendo mis posts, sabrás que la idea de la AGI (Inteligencia Artificial General) todavía es un horizonte difuso. El propio creador de ARC Prize, François Chollet, deja claro que estos resultados no significan que o3 sea “AGI” en el sentido de tener una inteligencia equiparable a la humana en todos los ámbitos. De hecho, o3 todavía falla en tareas que para nosotros serían triviales.
• ARC-AGI no es la prueba definitiva de AGI: Es un escalón más, un benchmark diseñado para medir la capacidad de adaptación.
• Próximo reto: ARC-AGI-2: Se espera que o3 baje dramáticamente su rendimiento en la nueva versión del reto (dicen que incluso por debajo del 30%), mientras que un humano seguiría por encima del 95%. Así que aún hay un trecho hasta hablar de una inteligencia genuinamente “general”.
Sin embargo, es un paso muy grande en la buena dirección y un aviso claro: la IA avanza mucho más rápido de lo que solía. Lo que ayer parecía “imposible para una máquina”, hoy puede resolverse—eso sí—con un coste económico significativo que en unos años seguramente sea mucho menor.
Antes, los grandes modelos de lenguaje (LLMs) funcionaban como “bibliotecas de programas”, respondiendo con la secuencia de texto más probable basándose en todo lo que habían leído durante su entrenamiento. Pero cuando se topaban con algo nunca visto, sin pista alguna, no sabían “inventarse” de verdad una nueva solución.
• Búsqueda de programas en tiempo real (H3): o3, en cambio, genera nuevas cadenas de razonamiento (o “programas” en lenguaje natural) para cada tarea, y cuenta con una especie de evaluador que decide si ese razonamiento apunta a la solución correcta o no.
• El papel del Chain of Thought (CoT): Se trata de describir, paso a paso, lo que la IA “piensa”. Con o3, estas cadenas se examinan y se reescriben hasta toparse con la mejor posible.
• Límites actuales: Es caro y tiene dependencia humana (necesita datos etiquetados y validación en su entrenamiento). Además, no se “conecta” de forma directa con el mundo real más allá del texto. Si le pidiéramos al modelo que probara físicamente un experimento en un laboratorio, por ejemplo, no podría hacerlo. Aún así, es un gran salto en la dirección de la adaptabilidad.
Ante la fuerza de o3, el ARC Prize ya planea ARC-AGI-2, un conjunto más desafiante que lanzarán a lo largo de 2025. Se espera que los modelos actuales sufran un gran bajón de rendimiento en esta nueva iteración de tareas. Para una persona humana, en cambio, sería relativamente sencillo (otra vez demostrando que la verdadera Inteligencia General sigue siendo un logro pendiente).
• Objetivo del ARC Prize: Seguir subiendo el listón y retando a la comunidad a desarrollar modelos abiertos y eficientes que logren superar el 85% de acierto con presupuestos de cómputo moderados.
• La clave: nuevos enfoques: O3 demuestra que simplemente ampliar tamaños de redes o datos no basta: hay que idear nuevas arquitecturas capaces de pensar, razonar y adaptarse en tiempo real.
• Lo que viene: Investigadores de todo el mundo están analizando qué tipo de tareas se le atascan a o3 para diseñar nuevos retos que evidencien sus puntos débiles. Un proceso creativo incesante, y siempre con la vista puesta en que estas mejoras se vuelvan accesibles y rentables para la industria y la sociedad en general.
No hay duda de que OpenAI o3 es un hito que no deja indiferente a nadie interesado en la Inteligencia Artificial. Hemos pasado de modelos que simplemente predecían la palabra siguiente a sistemas capaces de “jugar” con millones de caminos lógicos hasta encontrar la solución adecuada a un problema que ni siquiera estaba en su “memoria” inicial.
Sin embargo, esto no supone que hayamos llegado a la tan ansiada AGI. Lo vemos claro cuando o3 tropieza con tareas sencillas para el cerebro humano y cuando comprobamos el alto coste de sus procesos. Pero sí marca un punto de inflexión en la evolución de la IA: la adaptabilidad es la nueva frontera, y con cada iteración nos acercamos a sistemas cada vez más versátiles y potentes.
Como siempre, me gusta recalcar mi visión humanista: los avances tecnológicos deben servirnos a las personas, no al revés. Este tipo de concursos y benchmarks, como el ARC Prize, ayudan a enfocar el trabajo de la comunidad investigadora hacia objetivos claros y tangibles. Es emocionante ver cómo vamos encontrando formas de hacer que las máquinas “piensen” un poco más como nosotros.
¿Te ha parecido interesante este avance? ¿Te gustaría profundizar más en cómo la IA puede transformar negocios, industrias e incluso tu propia formación? ¡No dudes en contactar conmigo o en pasarte por mis redes para seguir explorando juntos el futuro de la inteligencia artificial!
Let's go,
Jordi Segura
CEO de CenteIA | Máster en Inteligencia Artificial | +200.000 personas formadas en IA