Llama 3.1 405B: cuando lo abierto alcanza al top cerrado

Logotipo corporativo de Meta Platforms, empresa que publica Llama 3.1 405B como modelo abierto equiparable a GPT-4o

Llama 3.1 405B, lanzado por Meta el 23 de julio de 2024, es el primer modelo abierto que compite en serio con GPT-4o y Claude 3.5 Sonnet. 405 mil millones de parámetros, 128k tokens de contexto (vs 8k de Llama 3), entrenado sobre 15T tokens con mejoras significativas en razonamiento y código. Para equipos que querían alternativa abierta al frontier comercial, es el momento.

Qué es diferente

Respecto a Llama 3 70B:

  • 405B parámetros (5.8x).
  • 128k context (vs 8k).
  • Quality al nivel de GPT-4o en muchos benchmarks.
  • Multilingüe ampliado.
  • Licencia mantiene restricciones >700M MAU.

Llama 3.1 también refresca 8B y 70B con los mismos 128k de contexto y mejoras de calidad.

Benchmarks

Benchmark Llama 3.1 405B GPT-4o Claude 3.5 Sonnet
MMLU 88.6 88.7 88.7
HumanEval 89.0 90.2 92.0
GSM8K 96.8 95.8 95.0
MATH 73.8 76.6 71.1

Equivalente al frontier cerrado. Para muchas tareas, indistinguible.

Hardware

Para inferencia:

  • FP16: ~810GB VRAM.
  • INT8: ~405GB.
  • INT4 (GGUF): ~220GB.

Implicaciones:

  • Solo on-prem serio o multi-A100/H100.
  • 2-4 × H100 80GB para Q4 con tensor parallelism.
  • Apple Silicon M2 Ultra 192GB cabe Q4 (8-10 tokens/s).
  • Inviable en consumer hardware.

Opciones de acceso

Si no puedes self-host:

  • Together.ai: pay-per-token, ~$3-5/1M.
  • Fireworks: similar.
  • Groq: extremely fast (>300 tokens/s en 405B via special hardware).
  • AWS Bedrock: enterprise-grade.
  • Vertex AI (Google): disponible.
  • Meta AI: consumer-facing.

Casos de uso

Donde 405B justifica:

  • Tareas de frontera: razonamiento complejo, investigación.
  • Agentes sofisticados multi-step.
  • Distillation: usar 405B para generar training data para modelos menores.
  • Compliance: quien requiere self-hosted frontier.

Donde 70B basta:

  • RAG empresarial típico.
  • Chat asistente.
  • Generación creativa estándar.

La diferencia de coste 405B vs 70B es ~10x. Justificar con use case.

Distillation: el efecto secundario

Liberación 405B abrió puerta a “distillation” — usar 405B para generar training data que mejora 8B y 70B. Esta es razón central por la que Meta lo liberó.

Ya hay community fine-tunes 8B-distilled de 405B con calidad sorprendente.

Limitaciones

  • Coste: prohibitivo para self-host modesto.
  • Latencia: procesar 128k tokens tarda >1min.
  • Licencia: Community license con restricciones >700M MAU.
  • Multimodalidad: solo texto (Llama 3.2 añadirá vision después).

Conclusión

Llama 3.1 405B cerró el gap open-vs-closed en mid-2024. Para empresas con capacidad de serving o que usan hosted providers, es opción real frente a GPT-4o/Claude 3.5. Para la mayoría, Llama 3.1 70B sigue siendo más pragmático. La importancia histórica es mayor que su adopción práctica — demostró que open-weight puede alcanzar frontier. Marca el shift donde “solo cerrados son frontier” dejó de ser cierto.

Síguenos en jacar.es para más sobre LLMs abiertos y frontier models.

Entradas relacionadas