Mascota Jacar — leyendo contigo Un portátil cuyos ojos siguen el cursor mientras lees.
Inteligencia Artificial

GPT-4o: multimodalidad nativa de OpenAI

GPT-4o: multimodalidad nativa de OpenAI

Actualizado: 2026-05-03

GPT-4o (“o” = omni) fue presentado por OpenAI el 13 de mayo de 2024. Lo nuevo no es que GPT-4 pueda procesar imagen y audio — eso ya existía vía APIs separadas — sino que un único modelo nativo procesa texto, imagen y audio de entrada y salida. El resultado: latencia de conversación humana (~320ms), mejor comprensión multimodal, y precio un 50% inferior a GPT-4 Turbo.

Puntos clave

  • Las tres modalidades (texto, visión, audio) están fusionadas en el mismo modelo base: el modelo oye tono, emoción e interrupciones, no solo palabras transcritas.
  • ~50% más barato que GPT-4 Turbo: $5/1M tokens de entrada frente a $10.
  • Latencia de ~320ms en modo audio: conversación verdaderamente natural.
  • HumanEval 90%: el mejor resultado en coding entre los modelos disponibles en mayo de 2024.
  • La Realtime API WebSocket bidireccional abre voice-first applications que antes requerían pipelines complejas.

Qué es diferente

Los tres modalidades están ahora fusionadas en el mismo modelo base:

  • Texto: calidad comparable o ligeramente superior a GPT-4 Turbo.
  • Visión: análisis de imágenes más integrado que GPT-4V; OCR avanzado, análisis de diagramas, comprensión de screenshots para automatización de UI.
  • Audio: entrada (transcripción + comprensión emocional) y salida (síntesis) nativas. El modelo entiende tono, emoción e interrupciones.
  • Video: frames de video como inputs para análisis de screen recordings o content moderation.

La diferencia frente al pipeline “Whisper → GPT-4 → TTS” es latencia y preservación de información: el pipeline anterior perdía el tono de voz, la emoción y las pausas. GPT-4o los procesa directamente.

Precio y velocidad

Modelo Input Output First token
GPT-4 Turbo $10/1M $30/1M ~1000ms
GPT-4o $5/1M $15/1M ~500ms
GPT-4o mini $0,15/1M $0,60/1M ~300ms

Para apps de chat en tiempo real, la diferencia de latencia es perceptible por el usuario final.

Benchmarks

Benchmark GPT-4o GPT-4 Turbo Claude 3 Opus
MMLU 88,7 86,4 86,8
HumanEval 90,2 85,4 84,9
GSM8K 95,8 92,0 95,0

GPT-4o destaca especialmente en coding (HumanEval 90%) y en tareas multilingüe.

Casos de uso desbloqueados

Lo que GPT-4o hace práctico donde antes hacía falta un pipeline complejo:

  • Voice assistants con latencia conversacional real: customer service por voz, tutores interactivos.
  • Accesibilidad: interfaces por voz para personas con limitaciones visuales o motoras.
  • Traducción simultánea en reuniones con preservación de tono.
  • Comprensión de documentos complejos: formularios, facturas, planos técnicos con una sola llamada API.
  • Automatización de UI: describir screenshots para pipelines de testing o soporte.

La Realtime API

La novedad más impactante post-launch: la Realtime API permite una conexión WebSocket bidireccional con streaming de audio. El cliente puede interrumpir, el servidor detecta la interrupción y ajusta la respuesta. Latencia real de 320ms.

python
# Conexión WebSocket bidireccional
# Stream de audio in → comprensión + razonamiento → stream audio out
# El modelo detecta interrupciones y ajusta en tiempo real

Esto abre patrones que antes eran impracticables: bots telefónicos de soporte, interfaces de voz para IoT, tutoriales interactivos con feedback instantáneo. La complejidad de integración (WebSocket + streaming de audio) es real pero el resultado es cualitativamente diferente a cualquier pipeline previo. Ver también Llama 3 y el ecosistema open source para alternativas self-hosted en casos donde la privacidad impide usar la API de OpenAI.

Limitaciones a tener en cuenta

Con honestidad:

  • El ancho de banda de audio en modelos actuales es ~24 kHz: calidad suficiente para voz pero no para audio de alta fidelidad.
  • Tool use + audio en la misma llamada es más complejo que en modo texto.
  • Alucinaciones en visión: OCR de baja calidad o texto confuso en imágenes genera errores con más frecuencia que en texto puro.
  • El contexto es de 128k tokens, igual que GPT-4 Turbo: menor que Claude 3 Opus o Gemini 1.5.
  • El coste de audio puede acumularse rápido: ~$0,06/min de entrada, ~$0,24/min de salida.

GPT-4o frente a GPT-4 Turbo

Tras varias semanas de uso en producción:

  • Calidad de texto: GPT-4o equivalente o ligeramente superior en la mayoría de tareas.
  • Razonamiento complejo en edge cases: Turbo ocasionalmente mejor.
  • Latencia: GPT-4o gana claramente.
  • Coste: GPT-4o gana claramente.
  • Multimodal: GPT-4o gana claramente.

Default para nuevas aplicaciones: GPT-4o. Razón para seguir con Turbo: razonamiento específico en casos donde lo hayas comprobado empíricamente.

Conclusión

GPT-4o es el punto de reset para evaluar qué se puede construir ahora con LLMs multimodales. La fusión de modalidades en un solo modelo no es solo una mejora técnica: cambia la economía de los productos que dependen de voz o visión. La Realtime API para voz es el diferencial más real para aplicaciones voice-first. El panorama de frontier LLMs se mueve rápido —Claude 3.5 Sonnet respondió al mes—, pero GPT-4o es un salto genuino en precio/calidad/modalidad.

¿Te ha resultado útil?
[Total: 0 · Media: 0]

Escrito por

CEO - Jacar Systems

Apasionado de la tecnología, la infraestructura cloud y la inteligencia artificial. Escribe sobre DevOps, IA, plataformas y software desde Madrid.