Escrito por

CEO - Jacar Systems

Apasionado de la tecnología, la infraestructura cloud y la inteligencia artificial. Escribe sobre DevOps, IA, plataformas y software desde Madrid.

Inteligencia Artificial Tecnología

70b 8b llama 2 llama 3 meta open llm

Llama 3: el nuevo estándar abierto de Meta

mayo 20, 2024 6 min de lectura 61 lecturas

Índice de contenidos

Puntos clave
Diferencias clave frente a Llama 2
Benchmarks
Hardware requerido
Despliegue típico
Licencia
Fine-tuning
Dónde sobresale y dónde no
Conclusión

Actualizado: 2026-05-03

Meta liberó Llama 3 el 18 de abril de 2024 en dos tamaños: 8B y 70B, ambos con variantes Instruct para chat. Entrenado sobre 15 billones de tokens —7,5 veces más que Llama 2—, con un tokenizer de 128k vocabulario y Grouped Query Attention en ambos tamaños. Rompe el gap que separaba los modelos abiertos de los frontier cerrados en muchas tareas.

Puntos clave

15T tokens de entrenamiento frente a 2T de Llama 2: la escala de datos es la diferencia más visible en razonamiento y siguimiento de instrucciones.
GQA en 8B y 70B: inferencia más eficiente sin sacrificar calidad.
Llama 3 70B compite con Claude 3 Sonnet en MMLU, HumanEval y GSM8K.
Llama 3 8B supera a Llama 2 13B en casi todos los benchmarks con la mitad de parámetros.
La Llama 3 Community License permite uso comercial hasta 700M MAU sin coste adicional.

Diferencias clave frente a Llama 2

Los cambios arquitectónicos son sutiles pero el impacto es sustancial:

15T tokens de entrenamiento frente a 2T: 7,5x más datos.
Contexto inicial de 8k tokens (extendido a 128k en Llama 3.1).
Tokenizer mejorado con 128k de vocabulario frente a 32k: tokenización más eficiente, especialmente en idiomas no ingleses.
GQA (Grouped Query Attention) en ambos tamaños: mejor ratio calidad/coste de inferencia.
Instruction tuning significativamente mejor: SFT + DPO + RLHF, con menos verbosidad y mejor adherencia a instrucciones.

Benchmarks

Benchmark	Llama 3 8B	Llama 3 70B	Claude 3 Sonnet	GPT-4 Turbo
MMLU	68,4	79,5	79,0	86,4
HumanEval	62,2	81,7	73,0	85,4
GSM8K	79,6	93,0	92,3	92,0
HellaSwag	82,4	88,0	89,0	95,3

Llama 3 70B está en la liga de Claude 3 Sonnet en la mayoría de tareas. Llama 3 8B supera a Llama 2 13B en casi todo.

Hardware requerido

Versión	FP16	INT8	INT4 (GGUF)
Llama 3 8B	16 GB	9 GB	5 GB
Llama 3 70B	140 GB	75 GB	40 GB

El 8B en Q4 cabe en Apple Silicon de 16 GB. El 70B Q4 requiere una A100 80 GB o dos A100 40 GB. Para inferencia en producción a throughput serio, vLLM es el estándar —ver SGLang para casos con prefijos compartidos— con tensor parallelism para el 70B.

Despliegue típico

bash

# Con Ollama (lo más simple)
ollama run llama3:8b
ollama run llama3:70b

# Con vLLM para producción
python -m vllm.entrypoints.openai.api_server 
  --model meta-llama/Meta-Llama-3-70B-Instruct 
  --tensor-parallel-size 4 
  --gpu-memory-utilization 0.9

Para quien no quiere self-host, Groq sirve Llama 3 8B a más de 500 tokens/s, Together.ai y AWS Bedrock cubren el 70B en modo enterprise.

Licencia

La Llama 3 Community License permite uso comercial hasta 700M MAU con obligación de mostrar “Built with Meta Llama 3”. Por encima de 700M, se requiere licencia especial. Para la gran mayoría de organizaciones, la licencia es suficientemente permisiva para despliegues de producción.

Fine-tuning

Llama 3 8B es fine-tunable con recursos manejables:

QLoRA en A100 24 GB: viable.
LoRA fine-tune: practicable en la mayoría de entornos enterprise.
Fine-tune completo del 8B: requiere 4x A100 80 GB.
Fine-tune del 70B: H100 cluster, presupuesto serio.

Para casos empresariales con dominio específico (legal, médico, técnico), un LoRA fine-tune del 8B sobre datos curados supera con frecuencia a un 70B base. Ver también frameworks de evaluación para retrieval para medir la calidad tras el fine-tune.

Dónde sobresale y dónde no

Puntos fuertes:

Code generation: HumanEval 62% (8B) y 82% (70B).
Razonamiento matemático: GSM8K 79-93% según tamaño.
Siguiendo instrucciones: notablemente mejor que Llama 2 en adherencia y tono.

Puntos débiles relativos:

Multilingüe: aceptable en español y francés, pero Mistral y Qwen siguen siendo superiores.
Long context: 8k base (resuelto con Llama 3.1 128k).
Multimodal: solo texto en la release inicial (resuelto con Llama 3.2).

Conclusión

Llama 3 es un salto real sobre Llama 2 y marca el estándar abierto de referencia. El 8B es la opción por defecto para self-hosting modesto; el 70B compite con frontier cerrados en la mayoría de tareas. Combinado con un ecosistema masivo de fine-tunes, variantes cuantizadas y tooling, es la elección segura para equipos que van en serio con LLMs abiertos. Para multilingüe extremo o contexto muy largo, Mixtral o Gemini siguen siendo preferibles; para el resto, Llama 3 es el default sensato.

¿Te ha resultado útil?

[Total: 13 · Media: 4.5]

Post Views: 61

Escrito por

Javier Cañete

CEO - Jacar Systems

Apasionado de la tecnología, la infraestructura cloud y la inteligencia artificial. Escribe sobre DevOps, IA, plataformas y software desde Madrid.

Llama 3: el nuevo estándar abierto de Meta

Puntos clave

Diferencias clave frente a Llama 2

Benchmarks

Hardware requerido

Despliegue típico

Licencia

Fine-tuning

Dónde sobresale y dónde no

Conclusión

Entradas relacionadas

Sistemas multi-agente: LangGraph vs CrewAI vs Autogen en 2026

Cómo construir un agente productivo con el SDK de Anthropic, paso a paso

Claude Code vs Cursor vs GitHub Copilot en 2026: comparativa con tareas medidas

MCP (Model Context Protocol) en 2026: guía completa para equipos técnicos