Inteligencia Artificial Tecnología

#benchmarks #evaluacion #gpt-4 #ia generativa #llm #openai

GPT-4 en profundidad: capacidades reales frente a expectativas

6 de agosto de 2023 5 min 270 4,7

Índice de contenidos

Puntos clave
Donde GPT-4 realmente destaca
Donde sigue siendo frustrante
Cálculo aritmético
Información posterior a su corte de entrenamiento
Consistencia entre conversaciones
Contextos muy largos
GPT-4 vs Claude 2
GPT-4 vs LLaMA 2 70B
Evaluación en tu dominio
Uso responsable
Conclusión
Fuentes

Actualizado: 2026-07-07

En marzo de 2023, OpenAI lanzó GPT-4^[1] con una presentación que prometía «niveles humanos de rendimiento en numerosos benchmarks». Varios meses después, con miles de integraciones reales, estoy en mejor posición para juzgar qué capacidades se cumplieron, cuáles fueron sobrevendidas y dónde todavía hay brechas significativas respecto a alternativas como Claude 2 y LLaMA 2. Si quieres la versión en inglés de este análisis, está disponible en /en/gpt-4-in-depth-real-capabilities-vs-expectations/.

Puntos clave

GPT-4 destaca consistentemente en razonamiento encadenado, escritura técnica precisa, código de mediana complejidad e instrucciones detalladas.
Falla de forma sistemática en cálculo aritmético, información post-corte, consistencia entre conversaciones y contextos muy largos.
Claude 2 gana en contexto extenso (100k tokens) y tono conservador; LLaMA 2 gana en privacidad, coste y personalización.
El único benchmark que importa es el de tu caso de uso: evalúa con 20–30 prompts reales.
El modelo genera texto plausible incluso cuando se equivoca: los flujos sin supervisión con impacto real son peligrosos.

Donde GPT-4 realmente destaca

Con el benchmark ampliado a decenas de casos reales, GPT-4 es consistentemente mejor en:

Razonamiento encadenado complejo. En problemas que requieren mantener múltiples variables, condicionales y pasos intermedios, GPT-4 alucina menos y mantiene la coherencia mejor que cualquier otro modelo disponible en su momento.
Escritura técnica precisa. Generar documentación, resúmenes de papers o explicaciones paso a paso de conceptos complejos (sobre todo en dominios como programación, finanzas cuantitativas o medicina) produce texto que requiere pocas correcciones editoriales.
Código de mediana complejidad. No es infalible, pero en tareas como «refactoriza esta función», «escribe tests para este componente» o «explícame qué hace este código heredado», supera claramente a GitHub Copilot cuando la sugerencia del IDE no basta.
Seguimiento de instrucciones muy detalladas. Un prompt con 15 restricciones específicas («responde en JSON con estas claves, no menciones X, limita a 100 palabras») es respetado mucho más fielmente que con GPT-3.5.

Donde sigue siendo frustrante

Pero hay áreas donde GPT-4, pese al marketing, sigue fallando sistemáticamente:

Cálculo aritmético

Sorprendentemente, GPT-4 comete errores aritméticos triviales con relativa frecuencia. «¿Cuánto es 2394 × 71?» da resultados incorrectos ~30 % del tiempo. Esto se mejora radicalmente con Code Interpreter, que ejecuta Python para cálculos reales.

Información posterior a su corte de entrenamiento

El modelo fue entrenado con datos hasta una fecha de corte específica. Preguntas sobre eventos recientes, versiones actuales de librerías o noticias frescas resultan en información desactualizada o inventada. Con browsing plugin esto mejora, pero la latencia y fiabilidad caen.

Consistencia entre conversaciones

La misma pregunta en dos conversaciones distintas puede recibir respuestas significativamente diferentes. Para casos de uso que requieren determinismo (auditorías, validaciones reproducibles), esto obliga a técnicas de prompting más rígidas o a bajar temperature a 0, lo que a veces degrada la calidad.

Contextos muy largos

Con 8k–32k tokens de contexto (según versión), GPT-4 pierde información cuando hay mucho texto. El fenómeno «lost in the middle^[2]» descrito por Liu et al. (2023) muestra que los modelos ignoran información colocada en el centro de un contexto largo. Claude 2 con 100k tokens lo hace ligeramente mejor, pero el problema existe en ambos.

GPT-4 vs Claude 2

Claude 2^[3], lanzado por Anthropic en julio de 2023, aporta algunas ventajas notables:

Ventana de contexto de 100k tokens. Permite cargar libros enteros, manuales técnicos o transcripciones largas en un solo prompt.
Tono más conservador. Menos propenso a exagerar o inventar; cuando no sabe, suele admitirlo.
Seguridad integrada más estricta. Para aplicaciones donde minimizar respuestas problemáticas importa, Claude 2 falla en menos casos conflictivos.

Donde GPT-4 gana: código complejo, matemáticas simbólicas, razonamiento multi-paso en problemas con más de 5 entidades interactuando.

GPT-4 vs LLaMA 2 70B

Comparado con LLaMA 2 70B, la familia de modelos abiertos que Meta publicó^[4] en julio de 2023:

GPT-4 gana claramente en razonamiento complejo y código.
LLaMA 2 70B es competitivo en tareas de resumen, clasificación, Q&A simple.
LLaMA 2 tiene la ventaja absoluta en privacidad, coste a escala y personalización.

Para cualquier tarea donde LLaMA 2 70B da resultados «aceptables», es casi siempre la mejor elección: el salto de calidad no compensa el coste ni la pérdida de privacidad de usar GPT-4.

Evaluación en tu dominio

El único benchmark que importa es el de tu caso de uso. Un proceso práctico para evaluar GPT-4 vs alternativas:

Selecciona 20–30 prompts representativos de tu aplicación real, con respuestas «ideales» anotadas por humanos.
Ejecuta cada prompt en GPT-4, Claude 2, LLaMA 2 y registra las respuestas.
Evalúa ciegamente (sin saber qué modelo generó qué): ¿cuál se acerca más a la respuesta ideal?
Cuantifica el coste total: precio por token × volumen esperado + overhead operativo.

Este proceso suele revelar sorpresas: a veces Claude 2 gana donde esperabas a GPT-4, o LLaMA 2 da resultados suficientes a una décima parte del coste. El proceso se aplica igual al evaluar Bard con PaLM 2 como alternativa del ecosistema Google.

Uso responsable

Una dimensión que conviene no olvidar: GPT-4 genera texto plausible incluso cuando se equivoca. Para aplicaciones con impacto real (decisiones médicas, legales, financieras), el resultado del modelo debe pasar por validación humana o sistemas de verificación independientes. El modelo no tiene forma de saber cuándo está equivocado con confianza, y eso es peligroso en flujos sin supervisión.

Conclusión

GPT-4 es el modelo más capaz en capacidad general disponible cuando se publica este análisis, pero «más capaz» no significa «mejor elección para todo». Equipos maduros evalúan por caso de uso, no por reputación del modelo. En muchos escenarios, Claude 2 o LLaMA 2 dan mejor relación valor/coste; en otros, GPT-4 sigue siendo el estándar insuperable. La sofisticación del equipo se mide en saber cuál es cuál.

GPT-4 en profundidad: capacidades reales frente a expectativas

Puntos clave

Donde GPT-4 realmente destaca

Donde sigue siendo frustrante

Cálculo aritmético

Información posterior a su corte de entrenamiento

Consistencia entre conversaciones

Contextos muy largos

GPT-4 vs Claude 2

GPT-4 vs LLaMA 2 70B

Evaluación en tu dominio

Uso responsable

Conclusión

Fuentes

Comparte este artículo

¿Te ha resultado útil este artículo?

Entradas relacionadas

Qué es Docker Agent, el plugin para crear agentes de IA con YAML

Qué es Open GSD, el flujo Git-Ship-Done para agentes de programación

Qué es un embedding vectorial y para qué sirve

RAG con Postgres y pgvector en producción: del PoC al SLO