Escrito por

CEO - Jacar Systems

Apasionado de la tecnología, la infraestructura cloud y la inteligencia artificial. Escribe sobre DevOps, IA, plataformas y software desde Madrid.

Inteligencia Artificial

gpt-4o multimodal openai real-time vision voice

GPT-4o: multimodalidad nativa de OpenAI

junio 1, 2024 6 min de lectura 113 lecturas

Índice de contenidos

Puntos clave
Qué es diferente
Precio y velocidad
Benchmarks
Casos de uso desbloqueados
La Realtime API
Limitaciones a tener en cuenta
GPT-4o frente a GPT-4 Turbo
Conclusión

Actualizado: 2026-05-03

GPT-4o (“o” = omni) fue presentado por OpenAI el 13 de mayo de 2024. Lo nuevo no es que GPT-4 pueda procesar imagen y audio — eso ya existía vía APIs separadas — sino que un único modelo nativo procesa texto, imagen y audio de entrada y salida. El resultado: latencia de conversación humana (~320ms), mejor comprensión multimodal, y precio un 50% inferior a GPT-4 Turbo.

Puntos clave

Las tres modalidades (texto, visión, audio) están fusionadas en el mismo modelo base: el modelo oye tono, emoción e interrupciones, no solo palabras transcritas.
~50% más barato que GPT-4 Turbo: $5/1M tokens de entrada frente a $10.
Latencia de ~320ms en modo audio: conversación verdaderamente natural.
HumanEval 90%: el mejor resultado en coding entre los modelos disponibles en mayo de 2024.
La Realtime API WebSocket bidireccional abre voice-first applications que antes requerían pipelines complejas.

Qué es diferente

Los tres modalidades están ahora fusionadas en el mismo modelo base:

Texto: calidad comparable o ligeramente superior a GPT-4 Turbo.
Visión: análisis de imágenes más integrado que GPT-4V; OCR avanzado, análisis de diagramas, comprensión de screenshots para automatización de UI.
Audio: entrada (transcripción + comprensión emocional) y salida (síntesis) nativas. El modelo entiende tono, emoción e interrupciones.
Video: frames de video como inputs para análisis de screen recordings o content moderation.

La diferencia frente al pipeline “Whisper → GPT-4 → TTS” es latencia y preservación de información: el pipeline anterior perdía el tono de voz, la emoción y las pausas. GPT-4o los procesa directamente.

Precio y velocidad

Modelo	Input	Output	First token
GPT-4 Turbo	$10/1M	$30/1M	~1000ms
GPT-4o	$5/1M	$15/1M	~500ms
GPT-4o mini	$0,15/1M	$0,60/1M	~300ms

Para apps de chat en tiempo real, la diferencia de latencia es perceptible por el usuario final.

Benchmarks

Benchmark	GPT-4o	GPT-4 Turbo	Claude 3 Opus
MMLU	88,7	86,4	86,8
HumanEval	90,2	85,4	84,9
GSM8K	95,8	92,0	95,0

GPT-4o destaca especialmente en coding (HumanEval 90%) y en tareas multilingüe.

Casos de uso desbloqueados

Lo que GPT-4o hace práctico donde antes hacía falta un pipeline complejo:

Voice assistants con latencia conversacional real: customer service por voz, tutores interactivos.
Accesibilidad: interfaces por voz para personas con limitaciones visuales o motoras.
Traducción simultánea en reuniones con preservación de tono.
Comprensión de documentos complejos: formularios, facturas, planos técnicos con una sola llamada API.
Automatización de UI: describir screenshots para pipelines de testing o soporte.

La Realtime API

La novedad más impactante post-launch: la Realtime API permite una conexión WebSocket bidireccional con streaming de audio. El cliente puede interrumpir, el servidor detecta la interrupción y ajusta la respuesta. Latencia real de 320ms.

python

# Conexión WebSocket bidireccional
# Stream de audio in → comprensión + razonamiento → stream audio out
# El modelo detecta interrupciones y ajusta en tiempo real

Esto abre patrones que antes eran impracticables: bots telefónicos de soporte, interfaces de voz para IoT, tutoriales interactivos con feedback instantáneo. La complejidad de integración (WebSocket + streaming de audio) es real pero el resultado es cualitativamente diferente a cualquier pipeline previo. Ver también Llama 3 y el ecosistema open source para alternativas self-hosted en casos donde la privacidad impide usar la API de OpenAI.

Limitaciones a tener en cuenta

Con honestidad:

El ancho de banda de audio en modelos actuales es ~24 kHz: calidad suficiente para voz pero no para audio de alta fidelidad.
Tool use + audio en la misma llamada es más complejo que en modo texto.
Alucinaciones en visión: OCR de baja calidad o texto confuso en imágenes genera errores con más frecuencia que en texto puro.
El contexto es de 128k tokens, igual que GPT-4 Turbo: menor que Claude 3 Opus o Gemini 1.5.
El coste de audio puede acumularse rápido: ~$0,06/min de entrada, ~$0,24/min de salida.

GPT-4o frente a GPT-4 Turbo

Tras varias semanas de uso en producción:

Calidad de texto: GPT-4o equivalente o ligeramente superior en la mayoría de tareas.
Razonamiento complejo en edge cases: Turbo ocasionalmente mejor.
Latencia: GPT-4o gana claramente.
Coste: GPT-4o gana claramente.
Multimodal: GPT-4o gana claramente.

Default para nuevas aplicaciones: GPT-4o. Razón para seguir con Turbo: razonamiento específico en casos donde lo hayas comprobado empíricamente.

Conclusión

GPT-4o es el punto de reset para evaluar qué se puede construir ahora con LLMs multimodales. La fusión de modalidades en un solo modelo no es solo una mejora técnica: cambia la economía de los productos que dependen de voz o visión. La Realtime API para voz es el diferencial más real para aplicaciones voice-first. El panorama de frontier LLMs se mueve rápido —Claude 3.5 Sonnet respondió al mes—, pero GPT-4o es un salto genuino en precio/calidad/modalidad.

¿Te ha resultado útil?

[Total: 0 · Media: 0]

Post Views: 113

Escrito por

Javier Cañete

CEO - Jacar Systems

Apasionado de la tecnología, la infraestructura cloud y la inteligencia artificial. Escribe sobre DevOps, IA, plataformas y software desde Madrid.

GPT-4o: multimodalidad nativa de OpenAI

Puntos clave

Qué es diferente

Precio y velocidad

Benchmarks

Casos de uso desbloqueados

La Realtime API

Limitaciones a tener en cuenta

GPT-4o frente a GPT-4 Turbo

Conclusión

Entradas relacionadas

«EU AI Act 2026: checklist técnica para CTOs españoles»

Observabilidad de agentes con OpenTelemetry GenAI semconv en 2026

Cómo instalar oMLX en M5 Max 128 GB y exprimirlo al máximo

Sistemas multi-agente: LangGraph vs CrewAI vs Autogen en 2026