Mascota Jacar — leyendo contigo Un portátil cuyos ojos siguen el cursor mientras lees.
Inteligencia Artificial Tecnología

GPT-4 en profundidad: capacidades reales frente a expectativas

GPT-4 en profundidad: capacidades reales frente a expectativas

Actualizado: 2026-05-03

En marzo de 2023, OpenAI lanzó GPT-4 con una presentación que prometía “niveles humanos de performance en muchos benchmarks”. Varios meses después, con miles de integraciones reales, estamos en mejor posición para juzgar: qué capacidades se cumplieron, cuáles fueron sobrevendidas, y dónde todavía hay brechas significativas respecto a alternativas como Claude 2 y LLaMA 2.

Puntos clave

  • GPT-4 destaca consistentemente en razonamiento encadenado, escritura técnica precisa, código de mediana complejidad e instrucciones detalladas.
  • Falla de forma sistemática en cálculo aritmético, información post-corte, consistencia entre conversaciones y contextos muy largos.
  • Claude 2 gana en contexto extenso (100k tokens) y tono conservador; LLaMA 2 gana en privacidad, coste y personalización.
  • El único benchmark que importa es el de tu caso de uso: evalúa con 20–30 prompts reales.
  • El modelo genera texto plausible incluso cuando se equivoca — flujos sin supervisión con impacto real son peligrosos.

Donde GPT-4 realmente destaca

Con el benchmark ampliado a decenas de casos reales, GPT-4 es consistentemente mejor en:

  • Razonamiento encadenado complejo. En problemas que requieren mantener múltiples variables, condicionales y pasos intermedios, GPT-4 alucina menos y mantiene la coherencia mejor que cualquier otro modelo disponible en su momento.
  • Escritura técnica precisa. Generar documentación, resúmenes de papers, explicaciones paso a paso de conceptos complejos — especialmente en dominios como programación, finanzas cuantitativas o medicina — produce texto que requiere pocas correcciones editoriales.
  • Código de mediana complejidad. No es infalible, pero en tareas como “refactorea esta función”, “escribe tests para este componente” o “explícame qué hace este código heredado”, supera claramente a GitHub Copilot cuando la sugerencia del IDE no basta.
  • Seguimiento de instrucciones muy detalladas. Un prompt con 15 restricciones específicas (“responde en JSON con estas claves, no menciones X, limita a 100 palabras”) es respetado mucho más fielmente que con GPT-3.5.

Donde sigue siendo frustrante

Pero hay áreas donde GPT-4, pese al marketing, sigue fallando sistemáticamente:

Cálculo aritmético

Sorprendentemente, GPT-4 comete errores aritméticos triviales con relativa frecuencia. “¿Cuánto es 2394 × 71?” da resultados incorrectos ~30 % del tiempo. Esto se mejora radicalmente con Code Interpreter, que ejecuta Python para cálculos reales.

Información posterior a su corte de entrenamiento

El modelo fue entrenado con datos hasta una fecha de corte específica. Preguntas sobre eventos recientes, versiones actuales de librerías o noticias frescas resultan en información desactualizada o inventada. Con browsing plugin esto mejora, pero la latencia y fiabilidad caen.

Consistencia entre conversaciones

La misma pregunta en dos conversaciones distintas puede recibir respuestas significativamente diferentes. Para casos de uso que requieren determinismo (auditorías, validaciones reproducibles), esto obliga a técnicas de prompting más rígidas o a bajar temperature a 0 — lo que a veces degrada calidad.

Contextos muy largos

Con 8k–32k tokens de contexto (según versión), GPT-4 pierde información cuando hay mucho texto. El “lost in the middle”[1] de Liu et al. muestra que los modelos ignoran información colocada en el centro de un contexto largo. Claude 2 con 100k tokens lo hace ligeramente mejor, pero el problema existe en ambos.

GPT-4 vs Claude 2

Claude 2[2], lanzado por Anthropic en julio de 2023, aporta algunas ventajas notables:

  • Ventana de contexto de 100k tokens. Permite cargar libros enteros, manuales técnicos o transcripciones largas en un solo prompt.
  • Tono más conservador. Menos propenso a exagerar o inventar; cuando no sabe, suele admitirlo.
  • Seguridad integrada más estricta. Para aplicaciones donde minimizar respuestas problemáticas importa, Claude 2 falla en menos casos conflictivos.

Donde GPT-4 gana: código complejo, matemáticas simbólicas, razonamiento multi-paso en problemas con más de 5 entidades interactuando.

GPT-4 vs LLaMA 2 70B

Comparado con LLaMA 2 70B:

  • GPT-4 gana claramente en razonamiento complejo y código.
  • LLaMA 2 70B es competitivo en tareas de resumen, clasificación, Q&A simple.
  • LLaMA 2 tiene la ventaja absoluta en privacidad, coste a escala y personalización.

Para cualquier tarea donde LLaMA 2 70B da resultados “aceptables”, es casi siempre la mejor elección — el delta de calidad no justifica el coste/privacidad de GPT-4.

Evaluación en tu dominio

El único benchmark que importa es el de tu caso de uso. Un proceso práctico para evaluar GPT-4 vs alternativas:

  1. Selecciona 20–30 prompts representativos de tu aplicación real, con respuestas “ideales” anotadas por humanos.
  2. Ejecuta cada prompt en GPT-4, Claude 2, LLaMA 2 y registra las respuestas.
  3. Evalúa ciegamente (sin saber qué modelo generó qué): ¿cuál se acerca más a la respuesta ideal?
  4. Cuantifica el coste total: precio por token × volumen esperado + overhead operativo.

Este proceso suele revelar sorpresas — a veces Claude 2 gana donde esperabas a GPT-4, o LLaMA 2 da resultados suficientes a 1/10 del coste. El proceso se aplica igual al evaluar Bard con PaLM 2 como alternativa del ecosistema Google.

Uso responsable

Una dimensión que conviene no olvidar: GPT-4 genera texto plausible incluso cuando se equivoca. Para aplicaciones con impacto real (decisiones médicas, legales, financieras), el output del modelo debe pasar por validación humana o sistemas de verificación independientes. El modelo no tiene forma de saber cuándo está equivocado con confianza, y eso es peligroso en flujos sin supervisión.

Conclusión

GPT-4 es el modelo más capaz en capacidad general disponible cuando se publica este análisis, pero “más capaz” no significa “mejor elección para todo”. Equipos maduros evalúan por caso de uso, no por reputación del modelo. En muchos escenarios, Claude 2 o LLaMA 2 dan mejor relación valor/coste; en otros, GPT-4 sigue siendo el estándar insuperable. La sofisticación del equipo se mide en saber cuál es cuál.

¿Te ha resultado útil?
[Total: 12 · Media: 4.7]
  1. “lost in the middle”
  2. Claude 2

Escrito por

CEO - Jacar Systems

Apasionado de la tecnología, la infraestructura cloud y la inteligencia artificial. Escribe sobre DevOps, IA, plataformas y software desde Madrid.