Mascota Jacar — leyendo contigo Un portátil cuyos ojos siguen el cursor mientras lees.
Inteligencia Artificial

o3 en público: el salto en razonamiento se confirma

o3 en público: el salto en razonamiento se confirma

Actualizado: 2026-05-03

La serie o3 de OpenAI, anunciada en diciembre con una oleada de benchmarks sorprendentes, ha empezado a salir al público durante enero. Primero fue o3-mini para usuarios de ChatGPT Plus y, poco después, empezaron a abrirse accesos a la API para clientes seleccionados. No es el despliegue más amplio del mundo, pero ya hay suficiente material de usuarios reales para valorarlo con menos incertidumbre que en las primeras semanas de anuncios.

Este post recoge mi lectura después de varias semanas probando o3-mini en casos reales, contrastando con lo que he visto en comentarios técnicos de otros y con los benchmarks publicados por terceros. No es un repaso de marketing, sino un intento de separar lo que es salto real de lo que es hype.

Puntos clave

  • o3-mini produce resultados significativamente mejores en problemas de lógica, matemáticas y código complejo frente a GPT-4o, sin necesidad de chain-of-thought forzado.
  • El tiempo de respuesta es mucho más alto (15-20 segundos frente a 2 de GPT-4o): factor real para casos interactivos.
  • En generación de texto creativo, o3-mini es ligeramente peor que GPT-4o; la prosa se siente más mecánica.
  • Las alucinaciones factuales siguen existiendo con la misma frecuencia; el mejor razonamiento no cura este problema.
  • El patrón óptimo es usar o3-mini solo para piezas con razonamiento complejo y modelos más rápidos y baratos para el resto de la aplicación.

Qué ha cambiado con o3

La familia o3 continúa el camino abierto por o1: modelos que dedican más tiempo y tokens a «pensar» antes de responder, con una arquitectura de razonamiento explícito interno. Lo nuevo respecto a o1 es un salto cuantitativo:

  • Resultados significativamente mejores en benchmarks de razonamiento (ARC-AGI es el que más titulares ha generado).
  • Mejor control del proceso de pensamiento.
  • Más eficiencia por token de razonamiento.

o3-mini, que es el que más gente puede usar ahora mismo, es el primer modelo de la serie al alcance de cualquier desarrollador con presupuesto razonable. Aunque no alcanza los resultados del o3 completo, ya está en un nivel superior a GPT-4o para casi cualquier problema que requiera razonamiento multi-paso.

Dónde el salto es real

Los problemas de lógica y matemáticas que antes requerían guiar al modelo —prompting cuidadoso, chain of thought forzado, verificación intermedia— ahora se resuelven con respuestas directas. Donde antes había que pedir «piensa paso a paso y comprueba tu razonamiento», ahora el modelo ya lo hace internamente.

Esto es especialmente evidente en tareas de programación con lógica compleja. Refactorizar un algoritmo, encontrar un bug en código sutil, diseñar una estructura de datos con ciertas invariantes: en todos estos casos o3-mini produce resultados que antes exigían varias iteraciones con GPT-4o. La ganancia de tiempo por interacción es real.

También es notable en razonamiento temporal y causal. Problemas que involucran múltiples pasos con dependencias —como planificar una migración de infraestructura o razonar sobre el orden de eventos en un sistema distribuido— ahora tienen respuestas más coherentes.

En matemáticas puras, o3-mini resuelve problemas que GPT-4o fallaba consistentemente. Y cuando se le empuja a razonar más tiempo (mediante el parámetro reasoning_effort), el margen crece aún más.

Diagrama comparativo de rendimiento de modelos de razonamiento en benchmarks matemáticos

Dónde sigue fallando

A pesar del salto, hay zonas donde o3 no es mejor que sus predecesores, e incluso puede ser peor:

  • Generación de texto creativo: o3-mini es ligeramente peor que GPT-4o. La prosa se siente más mecánica, menos suelta. Para texto narrativo, ficción o redacción con estilo, GPT-4o sigue siendo preferible.
  • Tareas con respuesta ambigua: o3-mini a veces «sobrepiensa» y entrega respuestas sobreelaboradas para preguntas que pedían algo más directo. Es el equivalente a contratar a un ingeniero para arreglar una silla.
  • Tiempo de respuesta: una pregunta que GPT-4o respondería en 2 segundos puede tardar 15 o 20 segundos en o3-mini. Para casos de uso interactivos, este es un factor real.
  • Alucinaciones factuales: aunque menos frecuentes, siguen existiendo. o3-mini sigue inventando nombres, fechas y referencias cuando no tiene la información correcta. El razonamiento mejor no cura este problema.

El impacto en precio

o3-mini está disponible a precios muy competitivos. En la API, el coste por millón de tokens de entrada y salida es razonable para la calidad que ofrece, especialmente en el tier con menos «esfuerzo» de razonamiento. No es tan barato como GPT-4o, pero está dentro del mismo orden de magnitud.

Para el o3 completo (no el mini), los precios son significativamente más altos, y las pruebas iniciales sugieren que para muchas tareas el mini es más que suficiente.

Qué cambia para quien construye productos

El cambio más inmediato es en arquitectura de aplicaciones. El patrón de «modelos diferentes para diferentes tareas» es lo que va a normalizarse:

  • Piezas con razonamiento complejo (resolución de problemas, análisis estructurado, planificación): o3-mini como opción por defecto.
  • Resto de la aplicación (texto de usuario, respuestas cortas, personalización): modelos más rápidos y baratos.

Para desarrolladores que hasta ahora trabajaban solo con GPT-4o o Claude, el cambio de mentalidad es reconocer que el razonamiento profundo ya no es problema de prompt engineering. Dejar de gastar tokens guiando al modelo y empezar a confiar en que lo hace internamente es un ajuste que lleva unos días pero rinde.

Para un análisis de cómo Anthropic responde a esta dirección con pensamiento extendido, ver nuestro artículo sobre Claude 3.7 Sonnet. Y para entender cómo situar distintos modelos en una arquitectura real, nuestro análisis de modelos de pesos abiertos en empresa explica el patrón de router multi-modelo.

Mi lectura

o3 confirma que la apuesta por modelos que «piensan más» funciona. El salto sobre o1 es material, no incremental. Y el hecho de que o3-mini esté disponible a precio razonable significa que este no es un juguete para benchmarks, sino una herramienta utilizable en producción.

El efecto a medio plazo es que las aplicaciones que tengan tareas de razonamiento complejo van a diferenciarse rápido: las que usen modelos de razonamiento van a resolver problemas que las que no lo hacen van a dejar a medias. Si trabajas en un producto con alguna pieza de razonamiento, mi recomendación concreta es dedicar dos o tres días a probar o3-mini en esa pieza específica. La mayoría de casos van a beneficiarse, y los pocos que no lo hagan también son información útil.

¿Te ha resultado útil?
[Total: 12 · Media: 4.4]

Escrito por

CEO - Jacar Systems

Apasionado de la tecnología, la infraestructura cloud y la inteligencia artificial. Escribe sobre DevOps, IA, plataformas y software desde Madrid.