Meta liberó Llama 3 el 18 de abril de 2024 en dos tamaños: 8B y 70B. La release también incluye chat fine-tunes (Instruct). Entrenado sobre 15 billones de tokens (vs 2T de Llama 2), con mejoras arquitectónicas sutiles pero significativas. Rompe el “gap” que separaba open models de frontier cerrados en muchas tareas.
Este artículo cubre qué mejora, qué hardware necesita, y cuándo es la elección correcta.
Diferencias clave vs Llama 2
Cambios:
- 15T tokens training vs 2T de Llama 2 — 7.5x más data.
- Contexto inicial 8k, con Llama 3.1 a 128k después.
- Tokenizer mejorado: 128k vocabulario (vs 32k), más eficiente.
- GQA (Grouped Query Attention) en ambos 8B y 70B.
- Instruction tuning significativamente mejor.
- Multilingüe: mejor que Llama 2 pero todavía no al nivel de Mistral.
Benchmarks
Resultados publicados de Meta y comunitarios:
| Benchmark | Llama 3 8B | Llama 3 70B | Claude 3 Sonnet | GPT-4 Turbo |
|---|---|---|---|---|
| MMLU | 68.4 | 79.5 | 79.0 | 86.4 |
| HumanEval | 62.2 | 81.7 | 73.0 | 85.4 |
| GSM8K | 79.6 | 93.0 | 92.3 | 92.0 |
| HellaSwag | 82.4 | 88.0 | 89.0 | 95.3 |
Llama 3 70B está en la liga de Claude 3 Sonnet en muchas tareas. Llama 3 8B es sorprendentemente capaz para su tamaño — supera a Llama 2 13B en casi todo.
Hardware requerido
Para inferencia:
| Versión | FP16 | INT8 | INT4 (GGUF) |
|---|---|---|---|
| Llama 3 8B | 16GB | 9GB | 5GB |
| Llama 3 70B | 140GB | 75GB | 40GB |
Implicaciones:
- 8B corre cómodo en consumer GPU (RTX 3090, 4070 con cuantización).
- 8B Q4 cabe en Apple Silicon 16GB.
- 70B Q4 requiere A100 80GB o 2x A100 40GB.
- 70B FP16 requiere 2x A100 80GB o H100 80GB.
Licencia
Llama 3 Community License — similar a Llama 2:
- Uso comercial OK hasta 700M MAU.
- Por encima de 700M, requiere licencia especial de Meta.
- Obligación de display “Built with Meta Llama 3”.
- Restricciones en entrenamiento de otros modelos usando salidas.
Para la mayoría de empresas, la licencia es suficientemente permisiva.
Instruction tuning
Llama 3 8B Instruct y 70B Instruct son la opción práctica. Meta invirtió fuerte en:
- SFT (Supervised Fine-Tuning) con datos propios y de alta calidad.
- DPO (Direct Preference Optimization) para alignment.
- RLHF para chat behavior.
Resultado: Llama 3 Instruct sigue instrucciones mejor que Llama 2 Chat, con menos verbosidad y mejor tono.
Dónde sobresale
Casos donde Llama 3 es ganador:
- Code generation: HumanEval 62% (8B) y 82% (70B) son fuertes.
- Math reasoning: GSM8K 79-93% según tamaño.
- General knowledge: MMLU sólido.
- Instruction following: limpio vs Llama 2.
Débil relativamente en:
- Multilingüe: aceptable en ES/FR pero Mistral o Qwen superiores.
- Long context: 8k base (resuelto con Llama 3.1 128k posterior).
- Multimodal: solo texto (resuelto con Llama 3.2 multimodal).
Despliegue
Stack típico:
# Con vLLM
python -m vllm.entrypoints.openai.api_server \
--model meta-llama/Meta-Llama-3-70B-Instruct \
--tensor-parallel-size 4 \
--gpu-memory-utilization 0.9
# Con llama.cpp (Q4 GGUF)
./server -m meta-llama-3-8b-instruct-q4_k_m.gguf \
-c 8192 -ngl 99 --host 0.0.0.0 --port 8080
# Con Ollama
ollama run llama3:8b
ollama run llama3:70b
Ollama es el más simple para arrancar. vLLM para throughput serio.
Proveedores hosted
Si no quieres self-host:
- Together.ai: acceso pay-per-token.
- Anyscale: similar.
- Groq: Llama 3 8B extremadamente rápido (>500 tokens/s).
- Replicate: serverless.
- AWS Bedrock: enterprise-grade.
- Meta AI directo (para consumer use).
Fine-tuning
Llama 3 8B es fine-tunable con recursos manejables:
- QLoRA en A100 24GB: posible.
- Full fine-tune 8B: requiere 4x A100 80GB.
- 70B fine-tune: H100 cluster, seriamente caro.
Para casos empresariales, LoRA fine-tune de 8B es practicable.
Comparación con Mixtral 8x22B
| Aspecto | Llama 3 70B | Mixtral 8x22B |
|---|---|---|
| Params totales | 70B | 141B |
| Params activos | 70B | 39B |
| Quality (MMLU) | 79.5 | 77.8 |
| Multilingüe | Media | Excelente |
| Coding | Mejor | Competitivo |
| Math | Mejor | Inferior |
| Licencia | Community | Apache 2.0 |
| Inferencia (A100) | ~20 tokens/s | ~25 tokens/s |
Llama 3 70B denso rinde similar a Mixtral 8x22B sparse con menos parámetros totales. La decisión depende de caso concreto.
Llama 3 en español
Trabajando en español:
- OK para tareas comunes.
- Con fine-tune específico, muy competitivo.
- Mixtral/Qwen siguen siendo marginalmente mejores en traducción matizada.
- Llama-3-SauerkrautLM y variantes multilingües de la comunidad ayudan.
Conclusión
Llama 3 es un salto real sobre Llama 2 y marca el standard open actual para 2024. 8B es excelente opción para self-hosting modesto; 70B compite con frontier cerrados en muchas tareas. Su licencia permite uso comercial para la gran mayoría. Combinado con ecosistema masivo (fine-tunes, variantes cuantizadas, tooling), es la elección segura para equipos que van serio con open LLMs. Para multilingüe extremo o long context, Mixtral o Gemini siguen siendo preferibles, pero para la mayoría, Llama 3 es el default sensato.
Síguenos en jacar.es para más sobre LLMs abiertos, Meta y arquitecturas IA.