Llama 3: el nuevo estándar abierto de Meta
Actualizado: 2026-05-03
Meta liberó Llama 3 el 18 de abril de 2024 en dos tamaños: 8B y 70B, ambos con variantes Instruct para chat. Entrenado sobre 15 billones de tokens —7,5 veces más que Llama 2—, con un tokenizer de 128k vocabulario y Grouped Query Attention en ambos tamaños. Rompe el gap que separaba los modelos abiertos de los frontier cerrados en muchas tareas.
Puntos clave
- 15T tokens de entrenamiento frente a 2T de Llama 2: la escala de datos es la diferencia más visible en razonamiento y siguimiento de instrucciones.
- GQA en 8B y 70B: inferencia más eficiente sin sacrificar calidad.
- Llama 3 70B compite con Claude 3 Sonnet en MMLU, HumanEval y GSM8K.
- Llama 3 8B supera a Llama 2 13B en casi todos los benchmarks con la mitad de parámetros.
- La Llama 3 Community License permite uso comercial hasta 700M MAU sin coste adicional.
Diferencias clave frente a Llama 2
Los cambios arquitectónicos son sutiles pero el impacto es sustancial:
- 15T tokens de entrenamiento frente a 2T: 7,5x más datos.
- Contexto inicial de 8k tokens (extendido a 128k en Llama 3.1).
- Tokenizer mejorado con 128k de vocabulario frente a 32k: tokenización más eficiente, especialmente en idiomas no ingleses.
- GQA (Grouped Query Attention) en ambos tamaños: mejor ratio calidad/coste de inferencia.
- Instruction tuning significativamente mejor: SFT + DPO + RLHF, con menos verbosidad y mejor adherencia a instrucciones.
Benchmarks
| Benchmark | Llama 3 8B | Llama 3 70B | Claude 3 Sonnet | GPT-4 Turbo |
|---|---|---|---|---|
| MMLU | 68,4 | 79,5 | 79,0 | 86,4 |
| HumanEval | 62,2 | 81,7 | 73,0 | 85,4 |
| GSM8K | 79,6 | 93,0 | 92,3 | 92,0 |
| HellaSwag | 82,4 | 88,0 | 89,0 | 95,3 |
Llama 3 70B está en la liga de Claude 3 Sonnet en la mayoría de tareas. Llama 3 8B supera a Llama 2 13B en casi todo.
Hardware requerido
| Versión | FP16 | INT8 | INT4 (GGUF) |
|---|---|---|---|
| Llama 3 8B | 16 GB | 9 GB | 5 GB |
| Llama 3 70B | 140 GB | 75 GB | 40 GB |
El 8B en Q4 cabe en Apple Silicon de 16 GB. El 70B Q4 requiere una A100 80 GB o dos A100 40 GB. Para inferencia en producción a throughput serio, vLLM es el estándar —ver SGLang para casos con prefijos compartidos— con tensor parallelism para el 70B.
Despliegue típico
# Con Ollama (lo más simple)
ollama run llama3:8b
ollama run llama3:70b
# Con vLLM para producción
python -m vllm.entrypoints.openai.api_server
--model meta-llama/Meta-Llama-3-70B-Instruct
--tensor-parallel-size 4
--gpu-memory-utilization 0.9Para quien no quiere self-host, Groq sirve Llama 3 8B a más de 500 tokens/s, Together.ai y AWS Bedrock cubren el 70B en modo enterprise.
Licencia
La Llama 3 Community License permite uso comercial hasta 700M MAU con obligación de mostrar “Built with Meta Llama 3”. Por encima de 700M, se requiere licencia especial. Para la gran mayoría de organizaciones, la licencia es suficientemente permisiva para despliegues de producción.
Fine-tuning
Llama 3 8B es fine-tunable con recursos manejables:
- QLoRA en A100 24 GB: viable.
- LoRA fine-tune: practicable en la mayoría de entornos enterprise.
- Fine-tune completo del 8B: requiere 4x A100 80 GB.
- Fine-tune del 70B: H100 cluster, presupuesto serio.
Para casos empresariales con dominio específico (legal, médico, técnico), un LoRA fine-tune del 8B sobre datos curados supera con frecuencia a un 70B base. Ver también frameworks de evaluación para retrieval para medir la calidad tras el fine-tune.
Dónde sobresale y dónde no
Puntos fuertes:
- Code generation: HumanEval 62% (8B) y 82% (70B).
- Razonamiento matemático: GSM8K 79-93% según tamaño.
- Siguiendo instrucciones: notablemente mejor que Llama 2 en adherencia y tono.
Puntos débiles relativos:
- Multilingüe: aceptable en español y francés, pero Mistral y Qwen siguen siendo superiores.
- Long context: 8k base (resuelto con Llama 3.1 128k).
- Multimodal: solo texto en la release inicial (resuelto con Llama 3.2).
Conclusión
Llama 3 es un salto real sobre Llama 2 y marca el estándar abierto de referencia. El 8B es la opción por defecto para self-hosting modesto; el 70B compite con frontier cerrados en la mayoría de tareas. Combinado con un ecosistema masivo de fine-tunes, variantes cuantizadas y tooling, es la elección segura para equipos que van en serio con LLMs abiertos. Para multilingüe extremo o contexto muy largo, Mixtral o Gemini siguen siendo preferibles; para el resto, Llama 3 es el default sensato.