GPT-4o: multimodalidad nativa de OpenAI
Actualizado: 2026-05-03
GPT-4o (“o” = omni) fue presentado por OpenAI el 13 de mayo de 2024. Lo nuevo no es que GPT-4 pueda procesar imagen y audio — eso ya existía vía APIs separadas — sino que un único modelo nativo procesa texto, imagen y audio de entrada y salida. El resultado: latencia de conversación humana (~320ms), mejor comprensión multimodal, y precio un 50% inferior a GPT-4 Turbo.
Puntos clave
- Las tres modalidades (texto, visión, audio) están fusionadas en el mismo modelo base: el modelo oye tono, emoción e interrupciones, no solo palabras transcritas.
- ~50% más barato que GPT-4 Turbo: $5/1M tokens de entrada frente a $10.
- Latencia de ~320ms en modo audio: conversación verdaderamente natural.
- HumanEval 90%: el mejor resultado en coding entre los modelos disponibles en mayo de 2024.
- La Realtime API WebSocket bidireccional abre voice-first applications que antes requerían pipelines complejas.
Qué es diferente
Los tres modalidades están ahora fusionadas en el mismo modelo base:
- Texto: calidad comparable o ligeramente superior a GPT-4 Turbo.
- Visión: análisis de imágenes más integrado que GPT-4V; OCR avanzado, análisis de diagramas, comprensión de screenshots para automatización de UI.
- Audio: entrada (transcripción + comprensión emocional) y salida (síntesis) nativas. El modelo entiende tono, emoción e interrupciones.
- Video: frames de video como inputs para análisis de screen recordings o content moderation.
La diferencia frente al pipeline “Whisper → GPT-4 → TTS” es latencia y preservación de información: el pipeline anterior perdía el tono de voz, la emoción y las pausas. GPT-4o los procesa directamente.
Precio y velocidad
| Modelo | Input | Output | First token |
|---|---|---|---|
| GPT-4 Turbo | $10/1M | $30/1M | ~1000ms |
| GPT-4o | $5/1M | $15/1M | ~500ms |
| GPT-4o mini | $0,15/1M | $0,60/1M | ~300ms |
Para apps de chat en tiempo real, la diferencia de latencia es perceptible por el usuario final.
Benchmarks
| Benchmark | GPT-4o | GPT-4 Turbo | Claude 3 Opus |
|---|---|---|---|
| MMLU | 88,7 | 86,4 | 86,8 |
| HumanEval | 90,2 | 85,4 | 84,9 |
| GSM8K | 95,8 | 92,0 | 95,0 |
GPT-4o destaca especialmente en coding (HumanEval 90%) y en tareas multilingüe.
Casos de uso desbloqueados
Lo que GPT-4o hace práctico donde antes hacía falta un pipeline complejo:
- Voice assistants con latencia conversacional real: customer service por voz, tutores interactivos.
- Accesibilidad: interfaces por voz para personas con limitaciones visuales o motoras.
- Traducción simultánea en reuniones con preservación de tono.
- Comprensión de documentos complejos: formularios, facturas, planos técnicos con una sola llamada API.
- Automatización de UI: describir screenshots para pipelines de testing o soporte.
La Realtime API
La novedad más impactante post-launch: la Realtime API permite una conexión WebSocket bidireccional con streaming de audio. El cliente puede interrumpir, el servidor detecta la interrupción y ajusta la respuesta. Latencia real de 320ms.
# Conexión WebSocket bidireccional
# Stream de audio in → comprensión + razonamiento → stream audio out
# El modelo detecta interrupciones y ajusta en tiempo realEsto abre patrones que antes eran impracticables: bots telefónicos de soporte, interfaces de voz para IoT, tutoriales interactivos con feedback instantáneo. La complejidad de integración (WebSocket + streaming de audio) es real pero el resultado es cualitativamente diferente a cualquier pipeline previo. Ver también Llama 3 y el ecosistema open source para alternativas self-hosted en casos donde la privacidad impide usar la API de OpenAI.
Limitaciones a tener en cuenta
Con honestidad:
- El ancho de banda de audio en modelos actuales es ~24 kHz: calidad suficiente para voz pero no para audio de alta fidelidad.
- Tool use + audio en la misma llamada es más complejo que en modo texto.
- Alucinaciones en visión: OCR de baja calidad o texto confuso en imágenes genera errores con más frecuencia que en texto puro.
- El contexto es de 128k tokens, igual que GPT-4 Turbo: menor que Claude 3 Opus o Gemini 1.5.
- El coste de audio puede acumularse rápido: ~$0,06/min de entrada, ~$0,24/min de salida.
GPT-4o frente a GPT-4 Turbo
Tras varias semanas de uso en producción:
- Calidad de texto: GPT-4o equivalente o ligeramente superior en la mayoría de tareas.
- Razonamiento complejo en edge cases: Turbo ocasionalmente mejor.
- Latencia: GPT-4o gana claramente.
- Coste: GPT-4o gana claramente.
- Multimodal: GPT-4o gana claramente.
Default para nuevas aplicaciones: GPT-4o. Razón para seguir con Turbo: razonamiento específico en casos donde lo hayas comprobado empíricamente.
Conclusión
GPT-4o es el punto de reset para evaluar qué se puede construir ahora con LLMs multimodales. La fusión de modalidades en un solo modelo no es solo una mejora técnica: cambia la economía de los productos que dependen de voz o visión. La Realtime API para voz es el diferencial más real para aplicaciones voice-first. El panorama de frontier LLMs se mueve rápido —Claude 3.5 Sonnet respondió al mes—, pero GPT-4o es un salto genuino en precio/calidad/modalidad.