OpenAI presentó o1-preview y o1-mini el 12 de septiembre de 2024 como una nueva familia de modelos con una diferencia filosófica respecto a GPT-4o: razonan internamente antes de emitir la respuesta final. No es sólo cadena de pensamiento visible (chain-of-thought); es un proceso oculto donde el modelo elabora, reconsidera, explora caminos, y recién entonces responde. Los resultados en matemáticas y código son dramáticos. Para otras tareas, el trade-off en latencia y coste no siempre merece la pena.
Qué hace distinto
Los modelos tradicionales (GPT-4o, Claude 3.5 Sonnet) generan tokens de respuesta secuencialmente desde el primer token. o1 introduce una fase previa de “pensamiento” no visible al usuario donde el modelo puede reformular el problema, explorar abordajes, descartar enfoques, antes de elaborar la respuesta. Este razonamiento interno consume tokens adicionales — los llamados reasoning tokens, que se facturan pero no se muestran al usuario.
El enfoque está inspirado parcialmente en técnicas como Tree of Thoughts y MCTS pero integrado a nivel de entrenamiento, no prompt. OpenAI no detalla exactamente la arquitectura; sabemos que hay una fase de aprendizaje por refuerzo que enseña al modelo a razonar eficientemente sobre problemas complejos.
Dónde sobresale
Los benchmarks cuentan una historia clara. En problemas matemáticos como AIME (American Invitational Mathematics Examination), o1-preview saca un 83% frente al 13% de GPT-4o. En problemas de física tipo PhD nivel, o1 alcanza 78% frente al 57% de expertos humanos. En competencias de programación como Codeforces, o1-preview se sitúa en el percentil 89 frente al 11 de GPT-4o.
Para tareas que requieren cadenas largas de razonamiento — matemáticas de olimpiada, demostraciones, depuración compleja, análisis causal profundo — el salto cualitativo es real y no sólo estadístico. Usuarios reportan que o1 resuelve problemas donde GPT-4o daba vueltas.
Dónde no aporta tanto
Para tareas conversacionales, escritura creativa, resúmenes simples, preguntas factuales directas, o1 no aporta ventaja significativa sobre GPT-4o, y sí añade latencia y coste. Una respuesta que GPT-4o genera en un segundo puede tardar diez o veinte en o1 mientras “piensa”. Para una conversación fluida, eso rompe la experiencia.
Además, o1 tiene limitaciones arquitectónicas. No soporta (al menos en preview) function calling en la misma forma que GPT-4o, no hace streaming, no es multimodal. Para workflows que dependen de esas capacidades, no es reemplazo directo.
El factor coste
o1-preview cuesta 15 dólares por millón de tokens de entrada y 60 dólares por millón de salida. o1-mini es más barato — 3 dólares entrada, 12 dólares salida — y suele ser el sweet spot para la mayoría de usos que se benefician del razonamiento. Para comparar, GPT-4o cuesta 2.50 y 10 dólares respectivamente.
El coste real es más alto que el nominal porque los reasoning tokens ocultos consumen output billing. Una respuesta aparentemente corta puede haber consumido internamente diez veces los tokens visibles. Para aplicaciones con alto volumen, esto suma.
Cuándo usarlo y cuándo no
La regla pragmática que emerge tras semanas de uso: para problemas donde la respuesta requiere varios pasos de razonamiento encadenados y donde la corrección importa más que la velocidad, o1 vale la pena. Investigación técnica compleja, análisis jurídicos con múltiples premisas, problemas matemáticos o de programación con estructura rica, planificación estratégica con variables interdependientes.
Para chatbots, generación de contenido, resúmenes, traducciones, preguntas rápidas, function calling, o1 introduce coste y latencia sin beneficio proporcional. GPT-4o o Claude 3.5 Sonnet son mejores elecciones.
El efecto industry
o1 marcó un giro conceptual. Antes, el progreso venía principalmente de escalar parámetros y datos (GPT-3 → GPT-4). o1 muestra que escalar cómputo en tiempo de inferencia — dar al modelo más tokens para pensar — también produce saltos cualitativos. Esto abre una nueva dimensión de escalado.
Poco después Anthropic anunció capacidades similares en versiones posteriores de Claude. Google prepara su respuesta en la familia Gemini. La competencia en modelos de razonamiento ya es campo de batalla activo. Para 2025 esperamos ver múltiples opciones con paradigmas similares.
Limitaciones y críticas
Ser honesto sobre los problemas. El razonamiento interno no es transparente — OpenAI explícitamente esconde los reasoning tokens al usuario. Esto genera dudas legítimas sobre auditoría y debugging. ¿Cómo depurar un error cuando no ves el razonamiento que lo produjo?
Los benchmarks publicados son cherry-picked en cierta medida. o1 no es universalmente superior; en muchas tareas cotidianas iguala o pierde frente a GPT-4o cuando se normaliza por coste. La narrativa “o1 es mejor en todo” es incorrecta.
Hay también cuestiones abiertas sobre la sostenibilidad del approach. Si cada generación de modelo requiere diez veces más tokens inferenciales, la huella de carbono y el coste económico escalan exponencialmente. En algún punto este crecimiento se estabiliza o se repensa.
Integración práctica
Para equipos que quieren incorporar o1 a su stack, la aproximación pragmática es routing multi-modelo: usar GPT-4o o Claude para la mayoría de queries y escalar a o1 solo cuando la tarea lo justifica. Herramientas como LiteLLM facilitan este patrón con un proxy unificado.
Otro patrón útil es el modo “reviewer”: o1 revisa respuestas producidas por modelos más baratos y señala errores de razonamiento. El coste por revisión es bajo porque son respuestas ya estructuradas; el beneficio en calidad puede ser alto para tareas críticas.
Conclusión
o1 representa un punto de inflexión en cómo pensamos sobre modelos de lenguaje. No es un reemplazo universal de GPT-4o sino un complemento especializado para razonamiento profundo. Para problemas donde importa más la corrección que la velocidad, vale cada céntimo adicional. Para la mayoría de usos cotidianos, los modelos tradicionales siguen siendo más eficientes. La dirección que marca — escalar cómputo en inferencia para razonamiento — es probablemente el próximo paradigma dominante. Conocer cuándo aplicarlo forma parte del repertorio técnico esencial para cualquier ingeniero que integre LLMs en producción.
Síguenos en jacar.es para más sobre modelos de razonamiento, LLMs de frontera y estrategias multi-modelo.