Cuando Meta publicó Llama 3.2 en septiembre de 2024, el anuncio más comentado fueron los modelos multimodales de 11B y 90B, pensados para competir con GPT-4V y Claude 3.5 Sonnet en visión. Pero la parte del lanzamiento que más me ha interesado a medio plazo son los dos modelos pequeños: 1B y 3B de parámetros, sin visión, diseñados específicamente para ejecutarse en dispositivos con recursos limitados.
Es un movimiento interesante porque cambia la economía de ciertas aplicaciones. Durante los últimos dos años, «usar un LLM» significaba casi siempre llamar a una API externa o, como mucho, ejecutar un modelo de 7B localmente con un buen GPU. Los modelos de 1B a 3B abren la puerta a escenarios que ninguna de esas dos opciones cubría bien.
Lo que ofrecen los modelos
Llama 3.2 1B tiene 1.230 millones de parámetros; la versión 3B, 3.210 millones. Ambos se entrenaron en un corpus multilingüe de unos 9 billones de tokens, con particular énfasis en idiomas distintos al inglés, ventana de contexto de 128K, y se publican bajo la licencia comunidad de Llama 3.
El modelo 1B cuantizado a 4 bits pesa aproximadamente 900 MB y corre cómodamente en un smartphone Android moderno o en un iPhone reciente. El 3B cuantizado ocupa 2 GB y requiere algo más: funciona en portátiles sin GPU dedicada y en algunos móviles de gama alta.
En benchmarks públicos, el 3B está en la liga de Phi-3 Mini y Gemma 2 2B: no resuelve problemas de razonamiento matemático complejo, pero responde bien a preguntas básicas, resume texto con coherencia y sigue instrucciones cortas. El 1B es más limitado, pero suficiente para clasificación, extracción estructurada y conversación guiada sobre dominios acotados.
Dónde encajan realmente
El error más común con estos modelos es compararlos con GPT-4 y concluir que son inútiles. La comparación correcta es con no usar LLM en absoluto.
Piensa en un asistente de dispositivo que transcribe y resume notas de voz localmente. Hasta ahora, eso exigía o bien subir el audio a una API externa (con problemas de latencia, privacidad y coste) o limitarse a transcripción sin resumen. Un modelo 3B en local resuelve el dilema: la latencia es baja, los datos no salen del dispositivo, y el coste operativo es cero después de distribuir el modelo.
Otro caso paradigmático es la clasificación y routing de texto. Un modelo 1B puede decidir si un email es urgente, una tarea, una notificación ignorable, o contenido que requiere atención humana. Hacer esto con una API llamada por cada email es insostenible en volumen; hacerlo localmente es casi gratis.
El tercer caso, que crecerá rápido, es la personalización offline. Aplicaciones que adaptan su comportamiento al historial del usuario sin enviar nada a servidores externos. Un motor de recomendación local, un asistente de escritura que aprende tu estilo, filtros de contenido personalizados. Todo esto se vuelve viable con un 3B funcionando como motor de inferencia.
Comparación con la competencia
En el rango 1B-3B, los competidores principales son Phi-3 Mini (3.8B) de Microsoft, Gemma 2 2B de Google, y Qwen 2.5 3B de Alibaba.
Phi-3 Mini ha sido durante casi un año el referente del tamaño, y en tareas específicas de razonamiento sigue estando ligeramente por delante de Llama 3.2 3B. A cambio, el corpus de Phi-3 está muy centrado en inglés, y su rendimiento en otros idiomas es desigual. Llama 3.2 es claramente superior en idiomas europeos distintos al inglés, lo cual es relevante si tu aplicación tiene usuarios en varios mercados.
Gemma 2 2B está en un tamaño ligeramente inferior, y es un modelo muy competente para su categoría, especialmente en razonamiento corto. Su licencia es más restrictiva que la de Llama 3.2 y eso puede pesar en casos comerciales.
Qwen 2.5 3B es probablemente el mejor del grupo en tareas de código, y tiene soporte multilingüe excelente, con especial solvencia en chino y lenguas asiáticas. La licencia Apache 2.0 completa lo convierte en la alternativa más flexible para uso comercial.
En la práctica, la elección entre estos cuatro no es dramática, y las diferencias de benchmark se comen rápido con un fine-tuning modesto sobre datos del dominio concreto. Lo que sí importa mucho es la licencia y el ecosistema: Llama es con diferencia el modelo con más herramientas, tutoriales y soporte comunitario.
Cómo probarlos hoy
Si quieres evaluar Llama 3.2 3B en un portátil, ollama run llama3.2:3b es un punto de partida. Responde en unos 30 a 60 tokens por segundo en un Mac con chip M2 o similar. Para dispositivos móviles, MLC LLM y las integraciones nativas de iOS/Android están funcionando, aunque con algo más de trabajo de integración.
Para escenarios productivos, la ruta que recomiendo es exportar el modelo a un formato optimizado para el hardware específico (GGUF para CPU, MLC para móvil, ONNX para NPU) y probar latencias reales con datos representativos antes de comprometerse. Los benchmarks sintéticos son útiles como referencia, pero la experiencia de usuario depende mucho del hardware concreto.
Lo que significa a medio plazo
La publicación de Llama 3.2 1B/3B confirma una tendencia que viene madurando desde hace meses: los modelos ya no van a crecer solo en tamaño. Va a haber un segmento serio de modelos pequeños y muy optimizados, que será el que llegue a productos de gran escala de consumo. Los grandes modelos de frontera seguirán dominando escenarios de razonamiento complejo y asistentes generalistas, pero la lógica integrada en las aplicaciones, la inteligencia que vive dentro del dispositivo, va a pertenecer a esta otra categoría.
La apuesta de Meta con estos tamaños es coherente con esa visión. Y para desarrolladores, la implicación es práctica: conviene empezar a experimentar con estos modelos aunque no parezca que tu aplicación los necesite hoy. Las aplicaciones que los usen bien van a tener una ventaja difícil de replicar con APIs externas, y esa ventaja se compone con el tiempo.