El 18 de julio de 2023, Meta publicó LLaMA 2, la segunda generación de su modelo de lenguaje. A diferencia de LLaMA 1 (solo investigación) esta vez la licencia permite uso comercial — con algunas salvedades para empresas con más de 700 millones de usuarios mensuales. Para el 99.9% de las organizaciones, eso significa: puedes descargarlo, modificarlo y usarlo en producción sin pagar royalties.
Esto cambia el panorama de modelos abiertos de forma significativa.
Qué ofrece LLaMA 2
Meta publicó tres tamaños: 7B, 13B y 70B parámetros. Cada uno en dos variantes: base (entrenada en predicción de texto general) y chat (afinada con RLHF para conversación tipo asistente).
Características clave:
- Entrenado con 2 billones de tokens — dos veces más que LLaMA 1 y con datos filtrados más rigurosamente.
- Ventana de contexto de 4k tokens. Limitación frente a GPT-4 (8k-32k) o Claude 2 (100k) pero extensible vía técnicas como RoPE scaling.
- Competitivo en benchmarks. LLaMA 2 70B iguala o supera a GPT-3.5 en MMLU, TriviaQA, HumanEval y otros. No llega a GPT-4, pero lo acerca mucho más que cualquier modelo abierto anterior.
- Licencia comercial. La parte más transformadora. Llama 2 Community License permite uso en producto gratis, con pocas restricciones.
Impacto en el ecosistema
En las dos semanas posteriores al release, el ecosistema ha explotado:
- Hugging Face aloja versiones cuantizadas en todas las combinaciones: GGML, GPTQ, AWQ, 4-bit, 8-bit. Correr LLaMA 2 7B en una GPU con 8 GB es ahora trivial.
- Fine-tunes de la comunidad: Vicuna, Wizard, Airoboros — docenas de variantes afinadas para tareas específicas (código, razonamiento, roleplay) aparecieron en días.
- Integración con herramientas: Ollama, LM Studio, llama.cpp corren LLaMA 2 localmente en Mac, Linux y Windows en cuestión de minutos.
- Servicios hospedados (Replicate, Anyscale, Together AI, AWS Bedrock) ofrecen LLaMA 2 con latencia baja a ~0.0008 USD por 1k tokens.
Casos donde LLaMA 2 supera a GPT por valor total
Hay escenarios donde LLaMA 2 — incluso siendo inferior en capacidad bruta — es mejor elección que GPT-3.5/4:
- Privacidad de datos. Si no puedes enviar datos del cliente a APIs externas (salud, finanzas, defensa), LLaMA 2 on-prem es la única vía.
- Control de coste a escala. A partir de cierto volumen (~100M tokens/mes), alojar tu propio LLaMA 2 sale más barato que API externa.
- Fine-tuning profundo. Puedes afinar pesos directamente, no solo añadir capas LoRA sobre base gestionada. Con QLoRA es factible afinar incluso el modelo 70B en hardware de consumo.
- Baja latencia. Correr local elimina round-trips a APIs — relevante para aplicaciones interactivas.
Cuándo GPT-4 sigue siendo mejor
Y donde LLaMA 2 todavía no compite:
- Razonamiento complejo multi-paso. GPT-4 mantiene ventaja en tareas donde la calidad por encima del 90% es crítica.
- Capacidad multilingüe amplia. LLaMA 2 funciona bien en inglés, aceptable en español/francés/alemán, regular en otros idiomas.
- Integración rápida en producto. Si el coste operativo no es el cuello de botella, API de OpenAI = menos fricción.
Requisitos de hardware
Para correr LLaMA 2 localmente:
| Modelo | VRAM mínima (4-bit) | VRAM plena (fp16) |
|---|---|---|
| 7B | 4-6 GB | 14 GB |
| 13B | 8-10 GB | 26 GB |
| 70B | 40-50 GB | 140 GB |
Con cuantización agresiva (GGML 4-bit), 7B corre en CPU en portátiles modernos (~10 tokens/s). 70B requiere GPU grande o técnicas de offloading a RAM + SSD, con degradación de rendimiento.
La política detrás
La estrategia de Meta con LLaMA 2 no es altruista — es competitiva. Al liberar modelos abiertos, Meta:
- Reduce la ventaja de OpenAI/Anthropic (cuya monetización depende de API propietarias).
- Acelera la adopción de tecnologías de IA que Meta luego puede aplicar en sus productos.
- Gana mindshare entre desarrolladores, un activo estratégico a largo plazo.
Esto no hace el modelo menos útil — al contrario, la motivación asegura inversión continuada. Pero conviene entenderlo como movimiento estratégico, no como filantropía.
Ver nuestro análisis de fine-tuning de LLMs y comparativa con Bard/PaLM 2 para contextualizar el ecosistema actual.
Conclusión
LLaMA 2 marca el momento en que los LLMs abiertos se vuelven opciones legítimas para producción, no solo para investigación. Para equipos con restricciones de privacidad, costes a escala o requisitos de personalización profunda, ahora hay una alternativa viable a los modelos propietarios. La brecha con GPT-4 sigue existiendo, pero se acorta cada pocos meses.
Síguenos en jacar.es para más sobre LLMs abiertos, arquitectura de IA y estrategias de despliegue.