Elegir un LLM abierto para empresa en 2024
Actualizado: 2026-05-03
Hace un año, “LLM abierto para empresa” significaba básicamente Llama 2. Hoy el panorama es más rico: Mistral 7B y Mixtral 8x7B, Qwen 1.5, Yi 34B, DeepSeek, Phi-2 y varios más. El abanico de opciones hace que elegir sea más difícil, no menos. Este artículo es una guía para decidir con criterios empresariales — no solo los benchmarks de moda.
Puntos clave
- La licencia va primero, no el benchmark: elegir un modelo y descubrir luego que la licencia no permite uso comercial es el error número uno.
- Mistral 7B y Mixtral 8x7B son los puntos dulces para la mayoría de empresas medianas por su combinación de rendimiento, tamaño y licencia Apache 2.0.
- Para el 80% de casos empresariales, prompt engineering + RAG es suficiente sin fine-tuning.
- El self-hosting solo se justifica con alto volumen constante, datos que no pueden salir, o compliance estricto.
- Los benchmarks académicos son útiles pero no suficientes — siempre complementar con evaluación propia sobre tus casos de uso reales.
Los candidatos
Los modelos abiertos que merecen evaluación seria a principios de 2024:
- Llama 2[1] (Meta): 7B/13B/70B. Base sólida, licencia restrictiva para uso comercial grande.
- Mistral 7B[2] y Mixtral 8x7B[3] (Mistral AI): Apache 2.0, excelente relación rendimiento/tamaño.
- Qwen 1.5[4] (Alibaba): 0.5B hasta 72B, soporte multilingüe fuerte.
- Yi[5] (01.AI): 6B/34B, buena en chino e inglés, licencia comercial permisiva.
- DeepSeek[6]: varios tamaños, muy fuerte en código y matemáticas.
- Phi-2[7] (Microsoft): 2.7B — pequeño pero competitivo en razonamiento.
- CodeLlama[8] (Meta): Llama afinado para código, varios tamaños.
La frontera se mueve rápido — estos son los serios a fecha de esta publicación.
Licencia: primero, no último
El error número uno: elegir por benchmark y luego descubrir que la licencia no permite uso comercial. Las situaciones más habituales:
- Apache 2.0 (Mistral, Mixtral, Yi): libre para comercial sin restricciones de tamaño.
- MIT (Phi-2): libre, orientado a investigación.
- Llama 2 License: permite comercial con cláusulas — restricciones si superas 700M MAU, obligación de indicar “Built with Llama 2”.
- Tongyi Qianwen License (Qwen): permite comercial bajo umbrales, similar a Llama 2.
- Licencias “Community”: a veces sí, a veces no. Leer el texto completo antes de comprometerse.
Para empresa grande, Apache 2.0 es la más tranquila. Para empresa mediana, las licencias de Meta o Alibaba son aceptables si cumples los umbrales.
Benchmarks: útiles pero limitados
MMLU, HellaSwag y GSM8K son los más conocidos públicamente. Sus limitaciones conocidas:
- Contaminación: muchos modelos pueden haber visto los tests durante el entrenamiento.
- Gaming: algunos modelos se optimizan explícitamente para benchmarks específicos.
- Distancia del uso real: “razonar sobre trivia” no es equivalente a “resolver mi problema de negocio”.
Los benchmarks académicos son útiles pero no suficientes. Siempre complementar con evaluaciones propias sobre tus casos de uso reales: el modelo que rinde bien en MMLU puede rendir mal en tus documentos del dominio.
El hardware necesario
El hardware filtra opciones rápido. Aproximaciones para inferencia (no entrenamiento):
| Modelo | FP16 | INT8 | INT4 (GGUF) |
|---|---|---|---|
| Llama 2 7B | 14 GB | 8 GB | 4 GB |
| Mistral 7B | 14 GB | 8 GB | 4 GB |
| Llama 2 13B | 26 GB | 15 GB | 7 GB |
| Mixtral 8x7B | 94 GB | 48 GB | 25 GB |
| Llama 2 70B | 140 GB | 75 GB | 40 GB |
| Yi 34B | 68 GB | 38 GB | 20 GB |
Implicaciones prácticas: el 7B cuantizado cabe en una RTX 4090 consumer (24 GB) o en un portátil M2/M3 de 16 GB; Mixtral 8x7B necesita una A100 40 GB; Llama 70B requiere A100 80 GB o dos A100 40 GB. Para self-hosting real, los modelos de 7B y 34B son los más prácticos. Los de 70B en adelante requieren infraestructura cara.
Calidad por categoría de uso
Sin ser exhaustivo, impresiones en casos reales:
Para código: DeepSeek Coder y CodeLlama dominan; Mixtral 8x7B es competitivo a escala menor.
Para resumen y análisis de texto: Mistral 7B sorprende para su tamaño; Mixtral 8x7B se acerca a GPT-3.5; Yi 34B es competitivo con contextos largos.
Para español y portugués: Qwen 1.5 y Mixtral son los más fuertes; Llama 2 funciona pero nota la falta de entrenamiento multilingüe.
Para matemáticas y razonamiento: DeepSeek Math (especializado) es excepcional; Yi 34B y Mixtral son aceptables.
Las diferencias de 5-10% en benchmarks académicos son irrelevantes si el modelo no funciona bien en tu dominio específico.
Inference serving
Las opciones maduras para servir modelos:
- vLLM[9]: máximo throughput en GPU.
- TGI[10] (Hugging Face): integración con el ecosistema HF.
- llama.cpp[11]: CPU y Apple Silicon.
- Ollama[12]: sobre llama.cpp, experiencia de usuario pulida para desarrollo.
- LMDeploy[13]: alternativa con buen rendimiento.
Para empresa: vLLM para throughput, Ollama para desarrolladores individuales.
Fine-tuning: cuándo sí y cuándo no
En la mayoría de casos empresariales, no necesitas fine-tuning. Prompt engineering + RAG cubre el 80%. El fine-tuning tiene sentido cuando tienes datos muy específicos de dominio (medicina, legal técnico, interno de tu empresa), cuando la latencia es crítica y el prompt largo no cabe, o cuando necesitas un tono o voz específico imposible de conseguir con prompting.
Las técnicas más útiles son LoRA / QLoRA (fine-tune eficiente con poca GPU) y DPO / RLHF (para alinear el modelo con preferencias). Empezar con prompting y recurrir al fine-tune solo cuando el prompting demostradamente no llegue.
Este flujo se combina bien con los patrones de proxies LLM para gestionar múltiples modelos sin duplicar lógica.
Self-hosting vs API abierta
Tres modelos de despliegue:
- Self-hosting: descargas pesos, corres en tu infraestructura. Control total, coste fijo de hardware.
- API de proveedor: Mistral AI, Together.ai, Anyscale, Replicate sirven modelos abiertos pay-per-token. Sin hardware, con coste variable.
- Híbrido: datos sensibles on-prem, el resto en API.
El self-hosting solo se justifica si el volumen es alto y constante, si los datos sensibles no pueden salir, si la latencia local es crítica, o si hay compliance estricto. Para el 80% de casos, una API de proveedor abierto (Mistral, Anyscale) es más eficiente.
Checklist de decisión
Para elegir un LLM abierto para empresa, estas siete preguntas filtran las opciones:
- Licencia: ¿compatible con tu uso y escala?
- Tamaño / hardware: ¿cabe en tu presupuesto de infraestructura?
- Idiomas: ¿cubre los idiomas de tus usuarios?
- Benchmark propio: ¿rinde bien en tus casos de uso reales?
- Proveedor: ¿self-host, API abierta, o híbrido?
- Seguridad: ¿el alignment del modelo es suficiente o necesitas capas adicionales?
- Roadmap: ¿el proyecto tiene continuidad activa?
Con ese filtro, la oferta se reduce a 2-3 opciones — y ahí la prueba propia decide.
Conclusión
El ecosistema de LLMs abiertos es lo suficientemente maduro para que empresas de casi cualquier tamaño encuentren un modelo viable. Mistral 7B y Mixtral 8x7B son puntos dulces para la mayoría. Llama 2 sigue siendo relevante, especialmente en 70B. Para dominios especializados (código, multilingüe), los modelos de DeepSeek, Qwen y Yi aportan alternativas válidas. La decisión no debe ser “qué tiene mejor MMLU” sino “qué encaja con mi licencia, hardware, idioma y casos reales”.