Llama 3: el nuevo estándar abierto de Meta

Meta liberó Llama 3 el 18 de abril de 2024 en dos tamaños: 8B y 70B. La release también incluye chat fine-tunes (Instruct). Entrenado sobre 15 billones de tokens (vs 2T de Llama 2), con mejoras arquitectónicas sutiles pero significativas. Rompe el “gap” que separaba open models de frontier cerrados en muchas tareas.

Este artículo cubre qué mejora, qué hardware necesita, y cuándo es la elección correcta.

Diferencias clave vs Llama 2

Cambios:

15T tokens training vs 2T de Llama 2 — 7.5x más data.
Contexto inicial 8k, con Llama 3.1 a 128k después.
Tokenizer mejorado: 128k vocabulario (vs 32k), más eficiente.
GQA (Grouped Query Attention) en ambos 8B y 70B.
Instruction tuning significativamente mejor.
Multilingüe: mejor que Llama 2 pero todavía no al nivel de Mistral.

Benchmarks

Resultados publicados de Meta y comunitarios:

Benchmark	Llama 3 8B	Llama 3 70B	Claude 3 Sonnet	GPT-4 Turbo
MMLU	68.4	79.5	79.0	86.4
HumanEval	62.2	81.7	73.0	85.4
GSM8K	79.6	93.0	92.3	92.0
HellaSwag	82.4	88.0	89.0	95.3

Llama 3 70B está en la liga de Claude 3 Sonnet en muchas tareas. Llama 3 8B es sorprendentemente capaz para su tamaño — supera a Llama 2 13B en casi todo.

Hardware requerido

Para inferencia:

Versión	FP16	INT8	INT4 (GGUF)
Llama 3 8B	16GB	9GB	5GB
Llama 3 70B	140GB	75GB	40GB

Implicaciones:

8B corre cómodo en consumer GPU (RTX 3090, 4070 con cuantización).
8B Q4 cabe en Apple Silicon 16GB.
70B Q4 requiere A100 80GB o 2x A100 40GB.
70B FP16 requiere 2x A100 80GB o H100 80GB.

Licencia

Llama 3 Community License — similar a Llama 2:

Uso comercial OK hasta 700M MAU.
Por encima de 700M, requiere licencia especial de Meta.
Obligación de display “Built with Meta Llama 3”.
Restricciones en entrenamiento de otros modelos usando salidas.

Para la mayoría de empresas, la licencia es suficientemente permisiva.

Instruction tuning

Llama 3 8B Instruct y 70B Instruct son la opción práctica. Meta invirtió fuerte en:

SFT (Supervised Fine-Tuning) con datos propios y de alta calidad.
DPO (Direct Preference Optimization) para alignment.
RLHF para chat behavior.

Resultado: Llama 3 Instruct sigue instrucciones mejor que Llama 2 Chat, con menos verbosidad y mejor tono.

Dónde sobresale

Casos donde Llama 3 es ganador:

Code generation: HumanEval 62% (8B) y 82% (70B) son fuertes.
Math reasoning: GSM8K 79-93% según tamaño.
General knowledge: MMLU sólido.
Instruction following: limpio vs Llama 2.

Débil relativamente en:

Multilingüe: aceptable en ES/FR pero Mistral o Qwen superiores.
Long context: 8k base (resuelto con Llama 3.1 128k posterior).
Multimodal: solo texto (resuelto con Llama 3.2 multimodal).

Despliegue

Stack típico:

# Con vLLM
python -m vllm.entrypoints.openai.api_server \
  --model meta-llama/Meta-Llama-3-70B-Instruct \
  --tensor-parallel-size 4 \
  --gpu-memory-utilization 0.9

# Con llama.cpp (Q4 GGUF)
./server -m meta-llama-3-8b-instruct-q4_k_m.gguf \
  -c 8192 -ngl 99 --host 0.0.0.0 --port 8080

# Con Ollama
ollama run llama3:8b
ollama run llama3:70b

Ollama es el más simple para arrancar. vLLM para throughput serio.

Proveedores hosted

Si no quieres self-host:

Together.ai: acceso pay-per-token.
Anyscale: similar.
Groq: Llama 3 8B extremadamente rápido (>500 tokens/s).
Replicate: serverless.
AWS Bedrock: enterprise-grade.
Meta AI directo (para consumer use).

Fine-tuning

Llama 3 8B es fine-tunable con recursos manejables:

QLoRA en A100 24GB: posible.
Full fine-tune 8B: requiere 4x A100 80GB.
70B fine-tune: H100 cluster, seriamente caro.

Para casos empresariales, LoRA fine-tune de 8B es practicable.

Comparación con Mixtral 8x22B

Aspecto	Llama 3 70B	Mixtral 8x22B
Params totales	70B	141B
Params activos	70B	39B
Quality (MMLU)	79.5	77.8
Multilingüe	Media	Excelente
Coding	Mejor	Competitivo
Math	Mejor	Inferior
Licencia	Community	Apache 2.0
Inferencia (A100)	~20 tokens/s	~25 tokens/s

Llama 3 70B denso rinde similar a Mixtral 8x22B sparse con menos parámetros totales. La decisión depende de caso concreto.

Llama 3 en español

Trabajando en español:

OK para tareas comunes.
Con fine-tune específico, muy competitivo.
Mixtral/Qwen siguen siendo marginalmente mejores en traducción matizada.
Llama-3-SauerkrautLM y variantes multilingües de la comunidad ayudan.

Conclusión

Llama 3 es un salto real sobre Llama 2 y marca el standard open actual para 2024. 8B es excelente opción para self-hosting modesto; 70B compite con frontier cerrados en muchas tareas. Su licencia permite uso comercial para la gran mayoría. Combinado con ecosistema masivo (fine-tunes, variantes cuantizadas, tooling), es la elección segura para equipos que van serio con open LLMs. Para multilingüe extremo o long context, Mixtral o Gemini siguen siendo preferibles, pero para la mayoría, Llama 3 es el default sensato.

Síguenos en jacar.es para más sobre LLMs abiertos, Meta y arquitecturas IA.