Hace un año, “LLM abierto para empresa” significaba básicamente Llama 2. Hoy el panorama es más rico: Mistral 7B y Mixtral 8x7B (francés), Qwen 1.5 (chino), Yi 34B (chino), DeepSeek, Phi-2 (Microsoft), y varios más. El abanico de opciones hace que elegir sea más difícil, no menos. Este artículo es una guía para decidir con criterios empresariales — no solo los benchmarks de moda.
Los candidatos en 2024
Los abiertos que merecen evaluación seria:
- Llama 2 (Meta): 7B/13B/70B. Base sólida, licencia restrictiva para uso comercial grande.
- Mistral 7B y Mixtral 8x7B (Mistral AI): Apache 2.0, excelente relación rendimiento/tamaño.
- Qwen 1.5 (Alibaba): 0.5B hasta 72B, soporte multilingüe fuerte.
- Yi (01.AI): 6B/34B, buena en chino e inglés, licencia comercial permisiva.
- DeepSeek: varios tamaños, muy fuerte en código y matemáticas.
- Phi-2 (Microsoft): 2.7B — pequeño pero competitivo, investigación.
- CodeLlama (Meta): Llama afinado para código. Varios tamaños.
La frontera se mueve rápido — estos son los serios en febrero 2024.
Licencia: primero, no último
El error número uno: elegir por benchmark y luego descubrir que la licencia no permite uso comercial.
- Apache 2.0 (Mistral, Mixtral, Yi): libre para comercial.
- MIT (Phi-2): libre, researchy.
- Llama 2 License: permite comercial pero con cláusulas — restricciones si tienes >700M MAU, debes mostrar “Built with Llama 2”.
- Tongyi Qianwen License (Qwen): permite comercial bajo umbrales; similar a Llama 2.
- Licencias “Community” (muchos modelos chinos): a veces sí, a veces no. Leer.
Para empresa grande, Apache 2.0 es la más tranquila. Para empresa mediana, las de Meta/Alibaba son aceptables si cumples umbrales.
Benchmarks: útiles pero limitados
MMLU, HellaSwag, GSM8K son los tops públicos. Problemas conocidos:
- Contamination: muchos modelos pueden haber visto los tests en entrenamiento.
- Gaming: algunos modelos se optimizan para benchmarks específicos.
- Lejanía del uso real: “razonar sobre trivia” no es “resolver mi problema de negocio”.
Useful-but-not-sufficient. Siempre complementar con benchmarks propios sobre tus casos de uso reales.
El hardware necesario
Esto filtra opciones rápido. Aproximaciones para inferencia (no training):
| Modelo | FP16 | INT8 | INT4 (GGUF) |
|---|---|---|---|
| Llama 2 7B | 14GB | 8GB | 4GB |
| Mistral 7B | 14GB | 8GB | 4GB |
| Llama 2 13B | 26GB | 15GB | 7GB |
| Mixtral 8x7B | 94GB | 48GB | 25GB |
| Llama 2 70B | 140GB | 75GB | 40GB |
| Yi 34B | 68GB | 38GB | 20GB |
Implicaciones:
- 7B cuantizado cabe en RTX 4090 consumer (24GB) o laptop M2/M3 de 16GB.
- Mixtral 8x7B necesita A100 40GB (o 2×24GB con offload).
- Llama 70B requiere A100 80GB o 2×A100 40GB.
Para self-hosting real, las opciones 7B y 34B son las más prácticas. 70B+ requiere infraestructura cara.
Calidad por categoría
Sin ser exhaustivo, nuestras impresiones subjetivas en casos reales:
Código:
- DeepSeek Coder y CodeLlama dominan.
- Mixtral 8x7B es competitivo a escala menor.
Resumen y análisis texto:
- Mistral 7B sorprendentemente bueno para su tamaño.
- Mixtral 8x7B cerca de GPT-3.5.
- Yi 34B competitivo, fuerte en contextos largos.
Español / Portugués:
- Qwen 1.5 y Mixtral son los más fuertes.
- Llama 2 “funciona” pero nota la falta de entrenamiento multilingüe.
Matemáticas y razonamiento:
- DeepSeek Math (especializado) excepcional.
- Yi 34B, Mixtral aceptables.
Creative writing:
- Llama 2 tiene menos filters, mejor para ficción.
- Mistral tiene “voice” más neutra.
Probar con tus casos reales. Las diferencias de 5-10% en benchmarks académicos son irrelevantes si tu modelo no funciona bien en tu dominio.
Inference serving
Opciones maduras:
- vLLM: máximo throughput en GPU.
- TGI (Hugging Face): integración ecosistema HF.
- llama.cpp: CPU y Apple Silicon.
- Ollama: sobre llama.cpp, experience usuario pulida.
- LMDeploy: alternativo con buen rendimiento.
Para empresa: vLLM para throughput, Ollama para developers individuales.
Fine-tuning
En la mayoría de casos empresariales, no necesitas fine-tune. Prompt engineering + RAG cubre el 80%. Cuando sí tiene sentido:
- Datos muy específicos de dominio (medicina, legal técnico, interno de tu empresa).
- Latency crítica donde el prompt largo no cabe.
- Tono/voice específico imposible de conseguir con prompting.
Técnicas:
- LoRA / QLoRA: fine-tune eficiente con poca GPU. Mistral 7B se puede fine-tunar en un A100 24GB.
- Full fine-tune: raro en empresa, requiere hardware pesado.
- DPO / RLHF: para alinear el modelo con preferencias.
Empezar con prompting. Fine-tune solo cuando prompting demostradamente no llegue.
Seguridad y safety
Modelos abiertos varían en alignment:
- Llama 2 Chat: muy filtrado, a veces demasiado cauteloso.
- Mistral 7B Instruct: alignment moderado, más flexible.
- Mixtral 8x7B Instruct: balance razonable.
- Modelos chinos (Qwen, Yi): alignment con sensibilidades culturales distintas (censura en temas políticos específicos).
- Base models sin instruct: sin filter — completa cualquier cosa. Para uso directo necesita capa de safety.
Para empresa: casi siempre queremos modelo instruct + capas adicionales (content moderation, etc).
Self-hosting vs API abierta
Tres modelos:
- Self-hosting: descargas pesos, corres en tu infra. Control total, coste fijo hardware.
- API proveedor: Mistral AI, Together.ai, Anyscale, Replicate servicios modelos abiertos pay-per-token. Sin hardware, con coste variable.
- Híbrido: sensitive data on-prem, resto en API.
El self-hosting solo justifica si:
- Volumen alto y constante (economía de escala).
- Sensitive data que no puede salir.
- Latency crítica local.
- Compliance estricta.
Para el 80% de casos, una API de provider abierto (Mistral, Anyscale) es más eficiente.
Contratos empresariales
Para empresa mediana-grande:
- Mistral AI ofrece Mistral La Plateforme con contratos enterprise.
- Together.ai, Anyscale dan SLAs.
- Hugging Face Inference Endpoints para self-service pro.
- Cloudflare Workers AI para edge serverless.
SLAs, data residency, indemnification — elementos típicos de contrato.
Checklist de decisión
Para elegir LLM abierto para empresa:
- Licencia: ¿compatible con tu uso?
- Tamaño / hardware: ¿cabe en tu presupuesto de infraestructura?
- Idiomas: ¿cubre los idiomas de tu uso?
- Benchmark propio: ¿rinde en tus casos reales?
- Proveedor: ¿self-host, API abierta, o híbrido?
- Seguridad: ¿alignment suficiente o capas añadidas?
- Roadmap: ¿el proyecto tiene continuidad?
Conclusión
El ecosistema de LLMs abiertos en 2024 es lo suficientemente maduro para que empresas de casi cualquier tamaño encuentren un modelo viable. Mistral 7B y Mixtral 8x7B son puntos dulces para la mayoría. Llama 2 sigue siendo relevante, especialmente en 70B. Para dominios especializados (código, multilingüe) los modelos chinos (DeepSeek, Qwen, Yi) aportan alternativas válidas. La decisión no debe ser “qué tiene mejor MMLU” sino “qué encaja con mi licencia, hardware, idioma y casos reales”. Con ese filtro, la oferta se reduce a 2-3 opciones — y ahí la prueba propia decide.
Síguenos en jacar.es para más sobre LLMs, IA empresarial y arquitecturas RAG.