Llama 3.1 405B: cuando lo abierto alcanza al top cerrado

Montañas con niebla representando escala imponente de un modelo frontier abierto

Llama 3.1 405B, lanzado por Meta el 23 de julio de 2024, es el primer modelo abierto que compite en serio con GPT-4o y Claude 3.5 Sonnet. 405 mil millones de parámetros, 128k tokens de contexto (vs 8k de Llama 3), entrenado sobre 15T tokens con mejoras significativas en razonamiento y código. Para equipos que querían alternativa abierta al frontier comercial, es el momento.

Qué es diferente

Respecto a Llama 3 70B:

  • 405B parámetros (5.8x).
  • 128k context (vs 8k).
  • Quality al nivel de GPT-4o en muchos benchmarks.
  • Multilingüe ampliado.
  • Licencia mantiene restricciones >700M MAU.

Llama 3.1 también refresca 8B y 70B con los mismos 128k de contexto y mejoras de calidad.

Benchmarks

Benchmark Llama 3.1 405B GPT-4o Claude 3.5 Sonnet
MMLU 88.6 88.7 88.7
HumanEval 89.0 90.2 92.0
GSM8K 96.8 95.8 95.0
MATH 73.8 76.6 71.1

Equivalente al frontier cerrado. Para muchas tareas, indistinguible.

Hardware

Para inferencia:

  • FP16: ~810GB VRAM.
  • INT8: ~405GB.
  • INT4 (GGUF): ~220GB.

Implicaciones:

  • Solo on-prem serio o multi-A100/H100.
  • 2-4 × H100 80GB para Q4 con tensor parallelism.
  • Apple Silicon M2 Ultra 192GB cabe Q4 (8-10 tokens/s).
  • Inviable en consumer hardware.

Opciones de acceso

Si no puedes self-host:

  • Together.ai: pay-per-token, ~$3-5/1M.
  • Fireworks: similar.
  • Groq: extremely fast (>300 tokens/s en 405B via special hardware).
  • AWS Bedrock: enterprise-grade.
  • Vertex AI (Google): disponible.
  • Meta AI: consumer-facing.

Casos de uso

Donde 405B justifica:

  • Tareas de frontera: razonamiento complejo, investigación.
  • Agentes sofisticados multi-step.
  • Distillation: usar 405B para generar training data para modelos menores.
  • Compliance: quien requiere self-hosted frontier.

Donde 70B basta:

  • RAG empresarial típico.
  • Chat asistente.
  • Generación creativa estándar.

La diferencia de coste 405B vs 70B es ~10x. Justificar con use case.

Distillation: el efecto secundario

Liberación 405B abrió puerta a “distillation” — usar 405B para generar training data que mejora 8B y 70B. Esta es razón central por la que Meta lo liberó.

Ya hay community fine-tunes 8B-distilled de 405B con calidad sorprendente.

Limitaciones

  • Coste: prohibitivo para self-host modesto.
  • Latencia: procesar 128k tokens tarda >1min.
  • Licencia: Community license con restricciones >700M MAU.
  • Multimodalidad: solo texto (Llama 3.2 añadirá vision después).

Conclusión

Llama 3.1 405B cerró el gap open-vs-closed en mid-2024. Para empresas con capacidad de serving o que usan hosted providers, es opción real frente a GPT-4o/Claude 3.5. Para la mayoría, Llama 3.1 70B sigue siendo más pragmático. La importancia histórica es mayor que su adopción práctica — demostró que open-weight puede alcanzar frontier. Marca el shift donde “solo cerrados son frontier” dejó de ser cierto.

Síguenos en jacar.es para más sobre LLMs abiertos y frontier models.

Entradas relacionadas