Mascota Jacar — leyendo contigo Un portátil cuyos ojos siguen el cursor mientras lees.
Inteligencia Artificial Tecnología

Llama 3.2 en el edge: Meta apuesta por lo pequeño

Llama 3.2 en el edge: Meta apuesta por lo pequeño

Actualizado: 2026-05-03

Cuando Meta publicó Llama 3.2 en septiembre de 2024, el anuncio más comentado fueron los modelos multimodales de 11B y 90B, pensados para competir con GPT-4V y Claude 3.5 Sonnet en visión. Pero la parte del lanzamiento que más me ha interesado a medio plazo son los dos modelos pequeños: 1B y 3B de parámetros, sin visión, diseñados específicamente para ejecutarse en dispositivos con recursos limitados.

Es un movimiento interesante porque cambia la economía de ciertas aplicaciones. Durante los últimos dos años, “usar un LLM” significaba casi siempre llamar a una API externa o, como mucho, ejecutar un modelo de 7B localmente con un buen GPU. Los modelos de 1B a 3B abren la puerta a escenarios que ninguna de esas dos opciones cubría bien.

Puntos clave

  • Llama 3.2 1B pesa ~900 MB cuantizado a 4 bits y corre en smartphones modernos. El 3B ocupa 2 GB y requiere portátil o móvil de gama alta.
  • La comparación correcta no es con GPT-4, sino con no usar LLM en absoluto — el 3B resuelve clasificación, extracción estructurada y conversación guiada.
  • En multilinguismo europeo, Llama 3.2 3B supera claramente a Phi-3 Mini, que está centrado en inglés.
  • ollama run llama3.2:3b es el punto de partida en portátil: 30-60 tokens/segundo en Mac con M2 o similar.
  • Para código, Qwen 2.5 3B (Apache 2.0) es probablemente el mejor del grupo; para uso comercial multilingüe, Llama 3.2 lidera.

Lo que ofrecen los modelos

Llama 3.2 1B tiene 1.230 millones de parámetros; la versión 3B, 3.210 millones. Ambos se entrenaron en un corpus multilingüe de unos 9 billones de tokens, con particular énfasis en idiomas distintos al inglés, ventana de contexto de 128K, y se publican bajo la licencia comunidad de Llama 3.

El modelo 1B cuantizado a 4 bits pesa aproximadamente 900 MB y corre cómodamente en un smartphone Android moderno o en un iPhone reciente. El 3B cuantizado ocupa 2 GB y requiere algo más: funciona en portátiles sin GPU dedicada y en algunos móviles de gama alta.

En benchmarks públicos, el 3B está en la liga de Phi-3 Mini y Gemma 2 2B: no resuelve problemas de razonamiento matemático complejo, pero responde bien a preguntas básicas, resume texto con coherencia y sigue instrucciones cortas. El 1B es más limitado, pero suficiente para clasificación, extracción estructurada y conversación guiada sobre dominios acotados.

Para ejecutarlos, el ecosistema de Ollama y llama.cpp proporciona la infraestructura necesaria.

Dónde encajan realmente

El error más común con estos modelos es compararlos con GPT-4 y concluir que son inútiles. La comparación correcta es con no usar LLM en absoluto.

Piensa en un asistente de dispositivo que transcribe y resume notas de voz localmente. Hasta ahora, eso exigía o bien subir el audio a una API externa (con problemas de latencia, privacidad y coste) o limitarse a transcripción sin resumen. Un modelo 3B en local resuelve el dilema: la latencia es baja, los datos no salen del dispositivo, y el coste operativo es cero después de distribuir el modelo.

Otro caso paradigmático es la clasificación y routing de texto. Un modelo 1B puede decidir si un email es urgente, una tarea, una notificación ignorable, o contenido que requiere atención humana. Hacer esto con una API llamada por cada email es insostenible en volumen; hacerlo localmente es casi gratis.

El tercer caso, que crecerá rápido, es la personalización offline. Aplicaciones que adaptan su comportamiento al historial del usuario sin enviar nada a servidores externos: un motor de recomendación local, un asistente de escritura que aprende tu estilo, filtros de contenido personalizados. Todo esto se vuelve viable con un 3B funcionando como motor de inferencia. El escenario de hardware ideal para esto son las NPUs que analizamos en NPU en el PC.

Comparación con la competencia

En el rango 1B-3B, los competidores principales son:

  • Phi-3 Mini (3.8B) de Microsoft: durante casi un año fue el referente del tamaño, y en tareas específicas de razonamiento sigue estando ligeramente por delante de Llama 3.2 3B. Su corpus está muy centrado en inglés; rendimiento desigual en otros idiomas.
  • Gemma 2 2B de Google: en un tamaño ligeramente inferior, muy competente para su categoría especialmente en razonamiento corto. Su licencia es más restrictiva que la de Llama 3.2 y eso puede pesar en casos comerciales.
  • Qwen 2.5 3B de Alibaba: probablemente el mejor del grupo en tareas de código, con excelente soporte multilingüe — especialmente chino y lenguas asiáticas. La licencia Apache 2.0 completa lo convierte en la alternativa más flexible para uso comercial.

En la práctica, la elección entre estos cuatro no es dramática, y las diferencias de benchmark se comen rápido con un fine-tuning modesto sobre datos del dominio concreto. Lo que sí importa mucho es la licencia y el ecosistema: Llama es con diferencia el modelo con más herramientas, tutoriales y soporte comunitario.

Para aplicaciones con usuarios en mercados europeos no anglófonos, Llama 3.2 3B ofrece la ventaja más clara en rendimiento multilingüe frente a las alternativas de tamaño similar.

Cómo probarlos hoy

Si quieres evaluar Llama 3.2 3B en un portátil, ollama run llama3.2:3b es el punto de partida. Responde en unos 30-60 tokens por segundo en un Mac con chip M2 o similar. Para dispositivos móviles, MLC LLM y las integraciones nativas de iOS/Android están funcionando, aunque con algo más de trabajo de integración.

Para escenarios productivos, la ruta recomendada es:

  1. Exportar el modelo a un formato optimizado para el hardware específico: GGUF para CPU, MLC para móvil, ONNX para NPU.
  2. Probar latencias reales con datos representativos antes de comprometerse.
  3. Los benchmarks sintéticos son útiles como referencia, pero la experiencia de usuario depende mucho del hardware concreto.

Lo que significa a medio plazo

La publicación de Llama 3.2 1B/3B confirma una tendencia que viene madurando desde hace meses: los modelos ya no van a crecer solo en tamaño. Va a haber un segmento serio de modelos pequeños y muy optimizados, que será el que llegue a productos de gran escala de consumo. Los grandes modelos de frontera seguirán dominando escenarios de razonamiento complejo y asistentes generalistas, pero la lógica integrada en las aplicaciones, la inteligencia que vive dentro del dispositivo, va a pertenecer a esta otra categoría.

La apuesta de Meta con estos tamaños es coherente con esa visión. Para desarrolladores, la implicación es práctica: conviene empezar a experimentar con estos modelos aunque no parezca que tu aplicación los necesite hoy. Las aplicaciones que los usen bien van a tener una ventaja difícil de replicar con APIs externas, y esa ventaja se compone con el tiempo.

Conclusión

Llama 3.2 1B y 3B cambian la economía de un conjunto específico de aplicaciones donde el LLM local era hasta ahora impracticable. No son competidores de GPT-4; son la primera generación de modelos que hace viable la IA integrada en el dispositivo para uso cotidiano. Para desarrolladores con usuarios en mercados multilingües o con requisitos de privacidad que impiden el cloud, el 3B es la opción más completa del rango por ecosistema y soporte multilingüe.

¿Te ha resultado útil?
[Total: 14 · Media: 4.5]

Escrito por

CEO - Jacar Systems

Apasionado de la tecnología, la infraestructura cloud y la inteligencia artificial. Escribe sobre DevOps, IA, plataformas y software desde Madrid.