Mascota Jacar — leyendo contigo Un portátil cuyos ojos siguen el cursor mientras lees.
Inteligencia Artificial

Familia Claude 4 inicial: primeras pruebas de calidad

Familia Claude 4 inicial: primeras pruebas de calidad

Actualizado: 2026-05-03

Anthropic publicó Claude Opus 4 y Claude Sonnet 4 el 22 de mayo de 2025. Es el primer salto grande de nomenclatura desde que salió la serie 3.5 hace año y medio. El cambio de número no es solo marketing: supone una revisión profunda de cómo razonan los modelos en tareas largas, especialmente en programación, y un reenfoque hacia flujos agénticos capaces de encadenar muchos pasos sin intervención humana. Este post recoge un mes de uso real con ambos modelos en trabajo cotidiano de código, documentación técnica y revisión de textos.

Para el contexto de los modelos que preceden a esta familia, el análisis de Claude 3.7 Sonnet cubre la dirección que 4 ha continuado. La gestión de costes de modelos en producción se trata en el post sobre FinOps para infraestructura de IA.

Puntos clave

  • La mejora más clara está en programación: refactorizaciones largas que antes requerían intervención humana ahora avanzan sin cortes.
  • Sonnet 4 cubre el 80% de los casos a una quinta parte del precio de Opus 4.
  • La capacidad agéntica ha mejorado notablemente: Opus 4 mantiene objetivos durante 30 pasos con llamadas a herramientas sin desviarse.
  • La ventana de 200 k tokens se aprovecha mejor; los detalles de las primeras 50 k tokens se mantienen presentes sin repetirlos.
  • Las alucinaciones persisten en APIs recientes; el corte de conocimiento es principios de 2025.

Qué cambia frente a 3.5 y 3.7

La serie 3.5, presentada en junio de 2024 con Sonnet y ampliada en octubre con la versión mejorada, había fijado un techo de calidad alto. En febrero de 2025 llegó Claude 3.7 Sonnet con pensamiento extendido opcional. Claude 4 unifica esas dos direcciones en una familia con dos niveles:

  • Opus 4: para tareas complejas donde la calidad marginal importa.
  • Sonnet 4: modelo de uso diario con calidad casi equivalente y precio 5× inferior.

La mejora más clara está en la programación. Anthropic afirma que Opus 4 lidera SWE-bench Verified con margen perceptible; en uso real, los refactorizados de varias horas que antes requerían intervención humana a mitad ahora avanzan sin cortes. La otra mejora visible es la gestión de contexto largo: ambos modelos mantienen ventana de 200 k tokens, pero el aprovechamiento es mejor. Los detalles de las primeras 50 k tokens se mantienen presentes sin necesidad de repetirlos, algo que en 3.5 había que hacer cada pocas vueltas.

Uso en programación real

Para tareas de código concreto, la diferencia entre niveles es mayor de lo esperado. Opus 4 mantiene un hilo de razonamiento coherente a través de múltiples archivos. En una migración real de Express.js a Fastify con 40 archivos de rutas, Opus 4 identificó dependencias transversales que Sonnet 3.5 pasaba por alto. Sonnet 4 también las detectaba, pero con algún error puntual que exigía corrección.

Donde Sonnet 4 se impone es en el día a día de edición interactiva: correcciones cortas, ejecución de pruebas, refactorizados localizados. La latencia más baja y el coste mucho menor hacen que la experiencia sea mejor aunque Opus pudiera ser ligeramente más certero. El patrón habitual que funciona es usar Sonnet 4 el 80% del tiempo y Opus 4 para problemas complejos donde el coste del error es alto.

La capacidad agéntica también ha mejorado de forma clara. En un agente de administración de base de datos SQL, Opus 4 mantuvo el objetivo durante 30 pasos con invocaciones de herramientas sin perderse, mientras que Sonnet 3.5 se desviaba alrededor del paso 15. Este comportamiento extendido es lo que hace que estos modelos encajen en flujos automatizados de larga duración, un tema que desarrollamos en agentes de IA en empresa.

Análisis de textos y revisión técnica

En tareas de análisis de textos largos —revisar especificaciones técnicas, contratos, documentación interna— la diferencia entre Claude 4 y 3.5 es menor que en código. Ambas generaciones son competentes y el salto perceptible es modesto, del orden del 10 al 15% de mejora en precisión. Sí se nota mejor capacidad para mantener la voz y el tono del documento original al proponer revisiones: en la serie 3.5 las propuestas sonaban a Claude, en la serie 4 el estilo se respeta mejor.

Limitaciones que siguen presentes

No todo ha mejorado:

  • Ventana de contexto: sigue en 200 k tokens. Suficiente para la mayoría de casos pero no para analizar repositorios grandes enteros sin estrategias de recuperación de información.
  • Latencia en Opus 4: una respuesta con pensamiento extendido puede tardar un minuto o más. Opus 4 encaja mejor como proceso por lotes o como paso de un flujo automatizado, no como modelo de conversación rápida.
  • Alucinaciones: persisten, especialmente en APIs recientes o librerías con cambios frecuentes. El corte de conocimiento es principios de 2025; todo lo posterior hay que aportarlo vía contexto o herramientas.

Precios y cuándo usar cada uno

Los precios de referencia en el momento de publicación son:

  • Opus 4: 15 $ por millón de tokens de entrada, 75 $ por millón de salida.
  • Sonnet 4: 3 $ y 15 $, respectivamente.

La diferencia 5× a favor de Sonnet hace que el patrón natural sea Sonnet 4 por defecto en IDE y agentes interactivos, reservando Opus 4 para tareas donde el coste del error es alto: diseño de arquitectura, refactorizados grandes, revisiones críticas. Para generar grandes volúmenes de texto, Haiku 3.5 sigue siendo el favorito por precio y latencia.

Mi lectura

Claude 4 no es una revolución sino una consolidación bien hecha. Anthropic ha ampliado lo que ya funcionaba en 3.5 y 3.7 y lo ha empujado un escalón más, con mejoras reales en programación, agentes y consistencia de contexto largo. No es el tipo de salto que justifique abandonar todos los flujos anteriores, pero sí el que justifica probar cada flujo existente y ver dónde 4 mejora la calidad.

La dualidad Opus/Sonnet tiene sentido. Sonnet 4 se convierte en el modelo por defecto, con un precio que lo hace viable para uso continuo y una calidad que se acerca mucho a Opus. Para quien diseña productos que integran modelos de lenguaje, el momento de revisar la elección de modelo es ahora: las mejoras en comportamiento agéntico y consistencia de contexto pueden desbloquear patrones de uso que eran torpes con 3.5.

¿Te ha resultado útil?
[Total: 11 · Media: 4.3]

Escrito por

CEO - Jacar Systems

Apasionado de la tecnología, la infraestructura cloud y la inteligencia artificial. Escribe sobre DevOps, IA, plataformas y software desde Madrid.