GPT-4o (“o” = omni) fue presentado por OpenAI el 13 de mayo de 2024. Lo nuevo no es que GPT-4 pueda procesar imagen y audio — eso ya existía vía APIs separadas — sino que un único modelo nativo procesa texto, imagen, audio de entrada y salida. El resultado: latencia de conversación humana (~320ms), mejor comprensión multimodal, y precio menor. Este artículo cubre qué cambia en producto real.
Qué es diferente
Los tres modalidades ahora están fusionadas en el mismo modelo base:
- Texto: como GPT-4 Turbo.
- Visión: análisis de imágenes, comparable a GPT-4V pero más integrado.
- Audio: entrada (transcripción + comprensión) y salida (síntesis) nativas.
- Video: frames de video como inputs.
La diferencia vs “pipeline” (Whisper → GPT-4 → TTS) es latencia y preservación de información: el modelo oye tono, emoción, interrupciones, no solo palabras transcritas.
Precio
- Input: $5 / 1M tokens (vs $10 de GPT-4 Turbo).
- Output: $15 / 1M tokens (vs $30).
- Audio: precio específico por segundo (~$0.06/min input, $0.24/min output).
- Visión: incluida en el pricing token.
50% más barato que GPT-4 Turbo con calidad comparable.
Velocidad
GPT-4o es marcadamente más rápido:
- First token: ~500ms típicamente.
- Tokens/s: 2-3x GPT-4 Turbo.
- Audio mode real-time: ~320ms latencia (conversacional natural).
Para apps de chat en tiempo real, esto es diferencia noticeable.
Benchmarks
Similar a GPT-4 Turbo en la mayoría:
| Benchmark | GPT-4o | GPT-4 Turbo | Claude 3 Opus |
|---|---|---|---|
| MMLU | 88.7 | 86.4 | 86.8 |
| HumanEval | 90.2 | 85.4 | 84.9 |
| GSM8K | 95.8 | 92.0 | 95.0 |
| HellaSwag | 95.3 | 95.3 | 95.4 |
Destaca en coding (HumanEval 90%) y multilingüe (mejor que GPT-4 Turbo en muchos idiomas).
Multimodal: casos reales
Vision
- OCR avanzado: mejor que tools tradicionales en docs complejos.
- Análisis de diagramas: arquitectura, gráficos, blueprints.
- Comprensión de screenshots para automation de UI.
- Descripción de imágenes con context awareness.
Audio
- Conversación en tiempo real con LLM.
- Traducción simultánea con preservación de tono.
- Transcripción de reuniones con attribution.
- Generación de voz realista (muchos speakers).
Video (frames)
- Análisis de screen recordings para soporte.
- Extracción de info de videos educativos.
- Content moderation en video.
API uso
Text + image:
from openai import OpenAI
client = OpenAI()
response = client.chat.completions.create(
model="gpt-4o",
messages=[{
"role": "user",
"content": [
{"type": "text", "text": "¿Qué pasa en esta imagen?"},
{"type": "image_url", "image_url": {"url": "https://..."}}
]
}]
)
Audio (via Realtime API):
# Connection WebSocket bi-direccional
# Stream de audio in → stream audio out con baja latencia
Realtime API está en beta pero funcional.
Limitaciones
Ser honesto:
- Audio output rate: limited bandwidth en modelos actuales; ~24kHz.
- No streaming tools en mismo call: tool use + audio es más complicado.
- Alucinaciones en visión: OCR de baja calidad o texto confuso genera errors.
- Context 128k (como GPT-4 Turbo) — menor que Claude 3 Opus o Gemini 1.5.
- Cost audio puede sumar rápido.
GPT-4o vs GPT-4 Turbo
Tras unas semanas de uso:
- Calidad texto: GPT-4o ≈ o ligeramente superior a Turbo.
- Razonamiento complejo: Turbo ocasionalmente mejor en edge cases.
- Latencia: GPT-4o gana claro.
- Coste: GPT-4o gana claro.
- Multimodal: GPT-4o gana claro.
Default para nuevas apps: GPT-4o. Razones para preferir Turbo: razonamiento específico donde lo notes.
GPT-4o mini
OpenAI presentó posteriormente GPT-4o mini: versión smaller con:
- $0.15 / 1M input, $0.60 / 1M output.
- Latencia aún menor.
- Calidad ligeramente por debajo pero suficiente para muchos casos.
Reemplaza a GPT-3.5 para casos donde el precio importa.
Casos de uso desbloqueados
Lo que GPT-4o hace práctico:
- Voice assistants con latencia conversacional.
- Tutores interactivos con audio + visión.
- Acessibilidad: voice-based UIs para personas con discapacidad.
- Translation realtime en reuniones.
- Document + image understanding en workflows unified.
- Customer service con voz natural.
Cada uno antes requería pipelines complejos.
Comparación con Gemini y Claude
Competidores multimodal:
- Gemini 1.5 Pro: contexto masivo (1M+), multimodal decent.
- Gemini 1.5 Flash: más rápido y barato.
- Claude 3.5 Sonnet (salió después de GPT-4o): competitivo.
Panorama: 3 proveedores principales con ofertas similares. Diferenciación en precio, latencia específica y ecosistema.
Realtime API
La novedad más impactante post-launch: Realtime API permite WebSocket bi-direccional con streaming audio. Latencia conversacional real.
Use cases:
- Customer support phone bots.
- Voice interfaces para IoT.
- Interactive tutorials.
Complejo de integrar (WebSocket + streaming) pero abre patterns imposibles antes.
Acceso
- ChatGPT: GPT-4o es default gratuito limitado, Plus/Team/Enterprise sin límites estrictos.
- API: pay-per-token como GPT-4 Turbo.
- Azure OpenAI: GPT-4o available.
Conclusión
GPT-4o es salto significativo en precio/calidad/modalidad de OpenAI. Para la mayoría de aplicaciones nuevas, es el default sensato. Su multimodalidad nativa abre casos que pipelines separadas no podían. La Realtime API para voz es diferencial real para voice-first apps. Como siempre, frontier de LLMs se mueve rápido — Claude 3.5 Sonnet responde al mes. Pero GPT-4o es buen reset point para evaluar qué se puede construir ahora.
Síguenos en jacar.es para más sobre OpenAI, multimodalidad y LLMs de frontera.