Llama 3.1 405B, lanzado por Meta el 23 de julio de 2024, es el primer modelo abierto que compite en serio con GPT-4o y Claude 3.5 Sonnet. 405 mil millones de parámetros, 128k tokens de contexto (vs 8k de Llama 3), entrenado sobre 15T tokens con mejoras significativas en razonamiento y código. Para equipos que querían alternativa abierta al frontier comercial, es el momento.
Qué es diferente
Respecto a Llama 3 70B:
- 405B parámetros (5.8x).
- 128k context (vs 8k).
- Quality al nivel de GPT-4o en muchos benchmarks.
- Multilingüe ampliado.
- Licencia mantiene restricciones >700M MAU.
Llama 3.1 también refresca 8B y 70B con los mismos 128k de contexto y mejoras de calidad.
Benchmarks
| Benchmark | Llama 3.1 405B | GPT-4o | Claude 3.5 Sonnet |
|---|---|---|---|
| MMLU | 88.6 | 88.7 | 88.7 |
| HumanEval | 89.0 | 90.2 | 92.0 |
| GSM8K | 96.8 | 95.8 | 95.0 |
| MATH | 73.8 | 76.6 | 71.1 |
Equivalente al frontier cerrado. Para muchas tareas, indistinguible.
Hardware
Para inferencia:
- FP16: ~810GB VRAM.
- INT8: ~405GB.
- INT4 (GGUF): ~220GB.
Implicaciones:
- Solo on-prem serio o multi-A100/H100.
- 2-4 × H100 80GB para Q4 con tensor parallelism.
- Apple Silicon M2 Ultra 192GB cabe Q4 (8-10 tokens/s).
- Inviable en consumer hardware.
Opciones de acceso
Si no puedes self-host:
- Together.ai: pay-per-token, ~$3-5/1M.
- Fireworks: similar.
- Groq: extremely fast (>300 tokens/s en 405B via special hardware).
- AWS Bedrock: enterprise-grade.
- Vertex AI (Google): disponible.
- Meta AI: consumer-facing.
Casos de uso
Donde 405B justifica:
- Tareas de frontera: razonamiento complejo, investigación.
- Agentes sofisticados multi-step.
- Distillation: usar 405B para generar training data para modelos menores.
- Compliance: quien requiere self-hosted frontier.
Donde 70B basta:
- RAG empresarial típico.
- Chat asistente.
- Generación creativa estándar.
La diferencia de coste 405B vs 70B es ~10x. Justificar con use case.
Distillation: el efecto secundario
Liberación 405B abrió puerta a “distillation” — usar 405B para generar training data que mejora 8B y 70B. Esta es razón central por la que Meta lo liberó.
Ya hay community fine-tunes 8B-distilled de 405B con calidad sorprendente.
Limitaciones
- Coste: prohibitivo para self-host modesto.
- Latencia: procesar 128k tokens tarda >1min.
- Licencia: Community license con restricciones >700M MAU.
- Multimodalidad: solo texto (Llama 3.2 añadirá vision después).
Conclusión
Llama 3.1 405B cerró el gap open-vs-closed en mid-2024. Para empresas con capacidad de serving o que usan hosted providers, es opción real frente a GPT-4o/Claude 3.5. Para la mayoría, Llama 3.1 70B sigue siendo más pragmático. La importancia histórica es mayor que su adopción práctica — demostró que open-weight puede alcanzar frontier. Marca el shift donde “solo cerrados son frontier” dejó de ser cierto.
Síguenos en jacar.es para más sobre LLMs abiertos y frontier models.