o3 en público: el salto en razonamiento se confirma

Tablero de ajedrez con piezas dispuestas evocando cálculo estratégico complejo

La serie o3 de OpenAI, anunciada en diciembre con una oleada de benchmarks sorprendentes, ha empezado a salir al público durante enero. Primero fue o3-mini para usuarios de ChatGPT Plus y, poco después, empezaron a abrirse acceso a la API para clientes seleccionados. No es el despliegue más amplio del mundo, pero ya hay suficiente material de usuarios reales para valorarlo con menos incertidumbre que en las primeras semanas de anuncios.

Este post recoge mi lectura después de varias semanas probando o3-mini en casos reales, contrastando con lo que he visto en comentarios técnicos de otros y con los benchmarks publicados por terceros. No es un repaso de marketing, sino un intento de separar lo que es salto real de lo que es hype.

Qué ha cambiado con o3

La familia o3 continúa el camino abierto por o1: modelos que dedican más tiempo y tokens a «pensar» antes de responder, con una arquitectura de razonamiento explícito interno. Lo nuevo respecto a o1 es un salto cuantitativo en varias direcciones: resultados significativamente mejores en benchmarks de razonamiento (ARC-AGI es el que más titulares ha generado), mejor control del proceso de pensamiento, y más eficiencia.

o3-mini, que es el que más gente puede usar ahora mismo, es especialmente interesante. Es el primer modelo de la serie que está al alcance de cualquier desarrollador con presupuesto razonable, y aunque no alcanza los resultados del o3 completo, ya está en un nivel superior a GPT-4o para casi cualquier problema que requiera razonamiento multi-paso.

Dónde el salto es real

Lo primero que he notado al probarlo es que los problemas de lógica y matemáticas que antes requerían guiar al modelo (prompting cuidadoso, chain of thought forzado, verificación intermedia) ahora se resuelven con respuestas directas. Donde antes había que pedir «piensa paso a paso y comprueba tu razonamiento», ahora el modelo ya lo hace internamente y entrega algo coherente.

Esto es especialmente evidente en tareas de programación con lógica compleja. Refactorizar un algoritmo, encontrar un bug en código sutil, diseñar una estructura de datos con ciertas invariantes: en todos estos casos o3-mini produce resultados que antes exigían varias iteraciones con GPT-4o. La ganancia de tiempo por interacción es real.

También es notable en razonamiento temporal y causal. Problemas que involucran múltiples pasos con dependencias, como planificar una migración de infraestructura o razonar sobre el orden de eventos en un sistema distribuido, ahora tienen respuestas más coherentes. No es perfecto, pero la diferencia con modelos anteriores se nota.

En matemáticas puras, el resultado habla por sí solo: o3-mini resuelve problemas que GPT-4o fallaba consistentemente. Y cuando se le empuja a razonar más tiempo (mediante el parámetro de reasoning_effort), el margen crece aún más.

Dónde sigue fallando

A pesar del salto, hay zonas donde o3 no es mejor que sus predecesores, e incluso puede ser peor.

En generación de texto creativo, o3-mini es ligeramente peor que GPT-4o. La prosa se siente más mecánica, menos suelta. Esto probablemente es efecto del entrenamiento más enfocado en razonamiento, y para cualquier caso donde el resultado es texto narrativo, ficción, o redacción con estilo, GPT-4o sigue siendo preferible.

En tareas donde la respuesta correcta es ambigua (recomendaciones, opinión, análisis subjetivo), o3-mini a veces «sobrepiensa» y entrega respuestas sobreelaboradas para preguntas que pedían algo más directo. Es el equivalente a contratar a un ingeniero para arreglar una silla: el resultado técnicamente es correcto, pero desproporcionado.

El tiempo de respuesta es mucho más alto. Una pregunta que GPT-4o respondería en 2 segundos puede tardar 15 o 20 segundos en o3-mini. Para casos de uso interactivo (asistentes de chat), esto es un factor real. Hay que decidir si el salto en calidad compensa la espera, y eso depende de la carga concreta.

Y los alucinaciones factuales, aunque menos frecuentes, siguen existiendo. o3-mini sigue inventando nombres, fechas y referencias con la misma desvergüenza que sus antecesores cuando no tiene la información correcta. El razonamiento mejor no cura este problema.

El impacto en precio

Un punto importante: o3-mini está disponible a precios muy competitivos. En la API, el coste por millón de tokens de entrada y salida es razonable para la calidad que ofrece, especialmente en el tier con menos «esfuerzo» de razonamiento. No es tan barato como GPT-4o, pero está dentro del mismo orden de magnitud.

Para el o3 completo (no el mini), los precios anunciados son significativamente más altos, y las pruebas iniciales sugieren que para muchas tareas el mini es más que suficiente. La elección entre uno y otro va a depender mucho de la carga, pero mi intuición es que la mayoría de aplicaciones reales van a usar o3-mini, y solo problemas específicos con razonamiento extremo justificarán el o3 full.

Qué cambia para quien construye productos

El cambio más inmediato es en arquitectura de aplicaciones. Si tu aplicación tiene una pieza que requiere razonamiento complejo (resolución de problemas, análisis estructurado, planificación), ahora tiene sentido evaluar o3-mini como opción por defecto para esa pieza concreta, en lugar de GPT-4o. Para el resto de la aplicación (texto de usuario, respuestas cortas, personalización), probablemente sigues con modelos más rápidos y baratos.

Este patrón de «modelos diferentes para diferentes tareas» es lo que va a normalizarse. Ya no es óptimo usar un único modelo para todo; las aplicaciones serias van a rutear cada tipo de consulta al modelo que mejor se ajusta. Frameworks como LangChain o LlamaIndex están integrando esta lógica de selección.

Para desarrolladores que hasta ahora trabajaban solo con GPT-4o o Claude, el cambio de mentalidad es reconocer que el razonamiento profundo ya no es problema de prompt engineering. Dejar de gastar tokens guiando al modelo y empezar a confiar en que lo hace internamente es un ajuste que lleva unos días pero rinde.

Mi lectura

o3 confirma que la apuesta por modelos que «piensan más» funciona. El salto sobre o1 es material, no incremental. Y el hecho de que o3-mini esté disponible a precio razonable significa que este no es un juguete para benchmarks, sino una herramienta utilizable en producción.

El efecto a medio plazo es que las aplicaciones que tengan tareas de razonamiento complejo van a diferenciarse rápido: las que usen modelos de razonamiento van a resolver problemas que las que no lo hacen van a dejar a medias. Es el mismo patrón que vimos cuando GPT-4 dejó obsoleto a GPT-3.5 para ciertas cargas, pero aplicado ahora a un segmento distinto del problema.

Si trabajas en un producto con alguna pieza de razonamiento, mi recomendación concreta es dedicar dos o tres días a probar o3-mini en esa pieza específica. La mayoría de casos van a beneficiarse, y los pocos que no lo hagan (por latencia, por coste, o por tipo de tarea) también son información útil. El ciclo de evaluación es corto y el valor potencial es alto.

Entradas relacionadas