LLaMA 2 y la nueva ola de modelos de lenguaje abiertos

El 18 de julio de 2023, Meta publicó LLaMA 2, la segunda generación de su modelo de lenguaje. A diferencia de LLaMA 1 (solo investigación) esta vez la licencia permite uso comercial — con algunas salvedades para empresas con más de 700 millones de usuarios mensuales. Para el 99.9% de las organizaciones, eso significa: puedes descargarlo, modificarlo y usarlo en producción sin pagar royalties.

Esto cambia el panorama de modelos abiertos de forma significativa.

Qué ofrece LLaMA 2

Meta publicó tres tamaños: 7B, 13B y 70B parámetros. Cada uno en dos variantes: base (entrenada en predicción de texto general) y chat (afinada con RLHF para conversación tipo asistente).

Características clave:

Entrenado con 2 billones de tokens — dos veces más que LLaMA 1 y con datos filtrados más rigurosamente.
Ventana de contexto de 4k tokens. Limitación frente a GPT-4 (8k-32k) o Claude 2 (100k) pero extensible vía técnicas como RoPE scaling.
Competitivo en benchmarks. LLaMA 2 70B iguala o supera a GPT-3.5 en MMLU, TriviaQA, HumanEval y otros. No llega a GPT-4, pero lo acerca mucho más que cualquier modelo abierto anterior.
Licencia comercial. La parte más transformadora. Llama 2 Community License permite uso en producto gratis, con pocas restricciones.

Impacto en el ecosistema

En las dos semanas posteriores al release, el ecosistema ha explotado:

Hugging Face aloja versiones cuantizadas en todas las combinaciones: GGML, GPTQ, AWQ, 4-bit, 8-bit. Correr LLaMA 2 7B en una GPU con 8 GB es ahora trivial.
Fine-tunes de la comunidad: Vicuna, Wizard, Airoboros — docenas de variantes afinadas para tareas específicas (código, razonamiento, roleplay) aparecieron en días.
Integración con herramientas: Ollama, LM Studio, llama.cpp corren LLaMA 2 localmente en Mac, Linux y Windows en cuestión de minutos.
Servicios hospedados (Replicate, Anyscale, Together AI, AWS Bedrock) ofrecen LLaMA 2 con latencia baja a ~0.0008 USD por 1k tokens.

Casos donde LLaMA 2 supera a GPT por valor total

Hay escenarios donde LLaMA 2 — incluso siendo inferior en capacidad bruta — es mejor elección que GPT-3.5/4:

Privacidad de datos. Si no puedes enviar datos del cliente a APIs externas (salud, finanzas, defensa), LLaMA 2 on-prem es la única vía.
Control de coste a escala. A partir de cierto volumen (~100M tokens/mes), alojar tu propio LLaMA 2 sale más barato que API externa.
Fine-tuning profundo. Puedes afinar pesos directamente, no solo añadir capas LoRA sobre base gestionada. Con QLoRA es factible afinar incluso el modelo 70B en hardware de consumo.
Baja latencia. Correr local elimina round-trips a APIs — relevante para aplicaciones interactivas.

Cuándo GPT-4 sigue siendo mejor

Y donde LLaMA 2 todavía no compite:

Razonamiento complejo multi-paso. GPT-4 mantiene ventaja en tareas donde la calidad por encima del 90% es crítica.
Capacidad multilingüe amplia. LLaMA 2 funciona bien en inglés, aceptable en español/francés/alemán, regular en otros idiomas.
Integración rápida en producto. Si el coste operativo no es el cuello de botella, API de OpenAI = menos fricción.

Requisitos de hardware

Para correr LLaMA 2 localmente:

Modelo	VRAM mínima (4-bit)	VRAM plena (fp16)
7B	4-6 GB	14 GB
13B	8-10 GB	26 GB
70B	40-50 GB	140 GB

Con cuantización agresiva (GGML 4-bit), 7B corre en CPU en portátiles modernos (~10 tokens/s). 70B requiere GPU grande o técnicas de offloading a RAM + SSD, con degradación de rendimiento.

La política detrás

La estrategia de Meta con LLaMA 2 no es altruista — es competitiva. Al liberar modelos abiertos, Meta:

Reduce la ventaja de OpenAI/Anthropic (cuya monetización depende de API propietarias).
Acelera la adopción de tecnologías de IA que Meta luego puede aplicar en sus productos.
Gana mindshare entre desarrolladores, un activo estratégico a largo plazo.

Esto no hace el modelo menos útil — al contrario, la motivación asegura inversión continuada. Pero conviene entenderlo como movimiento estratégico, no como filantropía.

Ver nuestro análisis de fine-tuning de LLMs y comparativa con Bard/PaLM 2 para contextualizar el ecosistema actual.

Conclusión

LLaMA 2 marca el momento en que los LLMs abiertos se vuelven opciones legítimas para producción, no solo para investigación. Para equipos con restricciones de privacidad, costes a escala o requisitos de personalización profunda, ahora hay una alternativa viable a los modelos propietarios. La brecha con GPT-4 sigue existiendo, pero se acorta cada pocos meses.

Síguenos en jacar.es para más sobre LLMs abiertos, arquitectura de IA y estrategias de despliegue.

Qué ofrece LLaMA 2

Impacto en el ecosistema

Casos donde LLaMA 2 supera a GPT por valor total

Cuándo GPT-4 sigue siendo mejor

Requisitos de hardware

La política detrás

Conclusión

Entradas relacionadas

vLLM en 2025: las mejoras que importan a quien sirve LLM

GraphRAG de Microsoft en empresa: patrones que funcionan

Evaluación de alineamiento: RLHF, DPO y alternativas recientes