Familia Claude 3: Haiku, Sonnet y Opus comparados
Actualizado: 2026-05-03
Anthropic lanzó la familia Claude 3 el 4 de marzo de 2024: tres modelos — Haiku, Sonnet y Opus — en la misma fecha, cada uno con diferente trade-off coste/rendimiento. Un mes después la adopción fue clara: Claude 3 Opus compite codo con codo con GPT-4 Turbo en muchos benchmarks, y Haiku es uno de los modelos más baratos con calidad decente.
Puntos clave
- Los tres niveles cubren trade-offs claros: Haiku para alta volumetría barata, Sonnet como default pragmático, Opus para razonamiento complejo donde el error de un modelo más barato sale caro.
- Todos tienen 200k tokens de contexto — ventaja concreta frente a los 128k de GPT-4 Turbo.
- La visión multimodal (imágenes en prompts) está disponible en los tres modelos.
- El tiered routing (Haiku → Sonnet → Opus según necesidad) minimiza coste total sin sacrificar calidad donde importa.
- Disponible en Amazon Bedrock y Google Cloud Vertex AI, lo que abre opciones de compliance europeo.
Los tres niveles
Haiku — el más rápido y barato:
- Precio: $0.25 / 1M tokens input, $1.25 / 1M output.
- Contexto: 200k tokens.
- Latencia: ~400ms primer token.
- Uso ideal: clasificación, extracción simple, chat de soporte de nivel 1, moderación.
Sonnet — el balanceado:
- Precio: $3 / 1M input, $15 / 1M output.
- Contexto: 200k tokens.
- Calidad: cercano a GPT-4 en muchos tasks.
- Uso ideal: RAG empresarial, agents con herramientas, análisis de documentos largos.
Opus — el más capaz:
- Precio: $15 / 1M input, $75 / 1M output.
- Contexto: 200k tokens.
- Calidad: competitivo con GPT-4 Turbo.
- Uso ideal: razonamiento multi-step complejo, investigación, coding avanzado, análisis jurídico o médico.
Todos tienen los 200k de contexto — no hay compromiso de contexto por precio como en generaciones anteriores.
Benchmarks publicados
| Benchmark | Opus | Sonnet | Haiku | GPT-4 Turbo |
|---|---|---|---|---|
| MMLU | 86.8 | 79.0 | 75.2 | 86.4 |
| GSM8K (math) | 95.0 | 92.3 | 88.9 | 92.0 |
| HumanEval (code) | 84.9 | 73.0 | 75.9 | 85.4 |
| HellaSwag | 95.4 | 89.0 | 85.9 | 95.3 |
Opus está en la misma clase que GPT-4 Turbo. Sonnet cierra en ~GPT-3.5+ en calidad pero a coste menor que GPT-4. Haiku es la sorpresa: muy competitivo para su precio, 12× más barato que Sonnet.
El contexto de 200k: el diferenciador real
Ambos, Anthropic (Claude 3) y Google (Gemini 1.5 Pro 1M), hacen el contexto largo accesible. OpenAI sigue en 128k para GPT-4 Turbo.
Casos donde 200k es suficiente sin necesitar Gemini 1.5:
- Libros de ~150 páginas o ~75k palabras.
- Bases de código medianas.
- Transcripciones de horas de audio.
- Informes técnicos extensos.
Para millones de tokens, Gemini 1.5 Pro sigue líder. Para cientos de miles, Claude 3 es competitivo.
Visión multimodal: imágenes en prompts
Los tres modelos aceptan imágenes en prompts. Claude 3 Opus destaca especialmente en:
- OCR de documentos.
- Descripción de gráficos y diagramas.
- Análisis de diagramas técnicos.
- Extracción de datos de facturas o formularios.
No hay generación de imágenes (eso queda a DALL-E, Midjourney, Stable Diffusion).
Vs GPT-4 Turbo: diferencias prácticas
Tras uso paralelo durante meses:
- Precisión factual: Opus y GPT-4 Turbo empatan.
- Instruction following: Claude 3 suele ser mejor en instrucciones complejas.
- Razonamiento: excelente en ambos; difícil separar de forma consistente.
- Coding: similar.
- Refusal rate: Claude históricamente más cauteloso; Claude 3 es menos rígido.
- Tono: Claude tiende a ser más verbose por defecto.
No hay ganador universal. La recomendación práctica es evaluar con tus casos concretos. Claude 3 y GPT-4 son complementarios, no excluyentes. Usar ambos en una estrategia multi-proveedor es razonable, especialmente para compliance europeo donde la residencia de datos importa. Esto conecta directamente con el planteamiento de LiteLLM y proxies LLM para abstraer la elección de proveedor.
Estrategia de uso multi-nivel
El patrón productivo más eficiente:
- Clasificar intent con Haiku (barato, ~$0.25/1M tokens).
- Procesar caso simple con Sonnet (default).
- Escalar a Opus solo si Sonnet falla o requiere alta precisión.
Este tiered routing con LiteLLM o lógica custom minimiza coste total sin sacrificar calidad donde importa.
API y acceso
- Anthropic API directo.
- Amazon Bedrock — con opciones regionales que facilitan compliance europeo.
- Google Cloud Vertex AI — integración con ecosistema GCP.
- Azure no (OpenAI exclusivo en Azure).
Limitaciones honestas
- Rate limits agresivos al principio del plan Pro.
- Residencia de datos: US por defecto (Bedrock tiene opciones regionales).
- Sin fine-tuning: Anthropic no ofrece custom fine-tune salvo contratos enterprise.
- Tier gratuito limitado: experimentación limitada fuera del tier de pago.
Conclusión
La familia Claude 3 cierra el gap que Anthropic tenía frente a OpenAI en capacidad top-tier. Opus es opción real para frontier tasks. Sonnet es el default pragmático. Haiku abre casos de alta volumetría con calidad decente. Contexto 200k en todos los tres es ventaja concreta frente a GPT-4 Turbo. La elección Anthropic vs OpenAI ya no es “quién tiene el mejor” sino “cuál encaja con tu caso y preferencia de proveedor”. Vale la pena tener ambos en la estrategia, no solo uno.