Inteligencia Artificial Metodologías

enterprise ai licencias llama llama 2 llm abierto mistral qwen

Elegir un LLM abierto para empresa en 2024

febrero 20, 2024 9 min de lectura 121 lecturas

Índice de contenidos

Puntos clave
Los candidatos
Licencia: primero, no último
Benchmarks: útiles pero limitados
El hardware necesario
Calidad por categoría de uso
Inference serving
Fine-tuning: cuándo sí y cuándo no
Self-hosting vs API abierta
Checklist de decisión
Conclusión

Actualizado: 2026-05-03

Hace un año, “LLM abierto para empresa” significaba básicamente Llama 2. Hoy el panorama es más rico: Mistral 7B y Mixtral 8x7B, Qwen 1.5, Yi 34B, DeepSeek, Phi-2 y varios más. El abanico de opciones hace que elegir sea más difícil, no menos. Este artículo es una guía para decidir con criterios empresariales — no solo los benchmarks de moda.

Puntos clave

La licencia va primero, no el benchmark: elegir un modelo y descubrir luego que la licencia no permite uso comercial es el error número uno.
Mistral 7B y Mixtral 8x7B son los puntos dulces para la mayoría de empresas medianas por su combinación de rendimiento, tamaño y licencia Apache 2.0.
Para el 80% de casos empresariales, prompt engineering + RAG es suficiente sin fine-tuning.
El self-hosting solo se justifica con alto volumen constante, datos que no pueden salir, o compliance estricto.
Los benchmarks académicos son útiles pero no suficientes — siempre complementar con evaluación propia sobre tus casos de uso reales.

Los candidatos

Los modelos abiertos que merecen evaluación seria a principios de 2024:

Llama 2^[1] (Meta): 7B/13B/70B. Base sólida, licencia restrictiva para uso comercial grande.
Mistral 7B^[2] y Mixtral 8x7B^[3] (Mistral AI): Apache 2.0, excelente relación rendimiento/tamaño.
Qwen 1.5^[4] (Alibaba): 0.5B hasta 72B, soporte multilingüe fuerte.
Yi^[5] (01.AI): 6B/34B, buena en chino e inglés, licencia comercial permisiva.
DeepSeek^[6]: varios tamaños, muy fuerte en código y matemáticas.
Phi-2^[7] (Microsoft): 2.7B — pequeño pero competitivo en razonamiento.
CodeLlama^[8] (Meta): Llama afinado para código, varios tamaños.

La frontera se mueve rápido — estos son los serios a fecha de esta publicación.

Licencia: primero, no último

El error número uno: elegir por benchmark y luego descubrir que la licencia no permite uso comercial. Las situaciones más habituales:

Apache 2.0 (Mistral, Mixtral, Yi): libre para comercial sin restricciones de tamaño.
MIT (Phi-2): libre, orientado a investigación.
Llama 2 License: permite comercial con cláusulas — restricciones si superas 700M MAU, obligación de indicar “Built with Llama 2”.
Tongyi Qianwen License (Qwen): permite comercial bajo umbrales, similar a Llama 2.
Licencias “Community”: a veces sí, a veces no. Leer el texto completo antes de comprometerse.

Para empresa grande, Apache 2.0 es la más tranquila. Para empresa mediana, las licencias de Meta o Alibaba son aceptables si cumples los umbrales.

Benchmarks: útiles pero limitados

MMLU, HellaSwag y GSM8K son los más conocidos públicamente. Sus limitaciones conocidas:

Contaminación: muchos modelos pueden haber visto los tests durante el entrenamiento.
Gaming: algunos modelos se optimizan explícitamente para benchmarks específicos.
Distancia del uso real: “razonar sobre trivia” no es equivalente a “resolver mi problema de negocio”.

Los benchmarks académicos son útiles pero no suficientes. Siempre complementar con evaluaciones propias sobre tus casos de uso reales: el modelo que rinde bien en MMLU puede rendir mal en tus documentos del dominio.

El hardware necesario

El hardware filtra opciones rápido. Aproximaciones para inferencia (no entrenamiento):

Modelo	FP16	INT8	INT4 (GGUF)
Llama 2 7B	14 GB	8 GB	4 GB
Mistral 7B	14 GB	8 GB	4 GB
Llama 2 13B	26 GB	15 GB	7 GB
Mixtral 8x7B	94 GB	48 GB	25 GB
Llama 2 70B	140 GB	75 GB	40 GB
Yi 34B	68 GB	38 GB	20 GB

Implicaciones prácticas: el 7B cuantizado cabe en una RTX 4090 consumer (24 GB) o en un portátil M2/M3 de 16 GB; Mixtral 8x7B necesita una A100 40 GB; Llama 70B requiere A100 80 GB o dos A100 40 GB. Para self-hosting real, los modelos de 7B y 34B son los más prácticos. Los de 70B en adelante requieren infraestructura cara.

Calidad por categoría de uso

Sin ser exhaustivo, impresiones en casos reales:

Para código: DeepSeek Coder y CodeLlama dominan; Mixtral 8x7B es competitivo a escala menor.

Para resumen y análisis de texto: Mistral 7B sorprende para su tamaño; Mixtral 8x7B se acerca a GPT-3.5; Yi 34B es competitivo con contextos largos.

Para español y portugués: Qwen 1.5 y Mixtral son los más fuertes; Llama 2 funciona pero nota la falta de entrenamiento multilingüe.

Para matemáticas y razonamiento: DeepSeek Math (especializado) es excepcional; Yi 34B y Mixtral son aceptables.

Las diferencias de 5-10% en benchmarks académicos son irrelevantes si el modelo no funciona bien en tu dominio específico.

Inference serving

Las opciones maduras para servir modelos:

vLLM^[9]: máximo throughput en GPU.
TGI^[10] (Hugging Face): integración con el ecosistema HF.
llama.cpp^[11]: CPU y Apple Silicon.
Ollama^[12]: sobre llama.cpp, experiencia de usuario pulida para desarrollo.
LMDeploy^[13]: alternativa con buen rendimiento.

Para empresa: vLLM para throughput, Ollama para desarrolladores individuales.

Fine-tuning: cuándo sí y cuándo no

En la mayoría de casos empresariales, no necesitas fine-tuning. Prompt engineering + RAG cubre el 80%. El fine-tuning tiene sentido cuando tienes datos muy específicos de dominio (medicina, legal técnico, interno de tu empresa), cuando la latencia es crítica y el prompt largo no cabe, o cuando necesitas un tono o voz específico imposible de conseguir con prompting.

Las técnicas más útiles son LoRA / QLoRA (fine-tune eficiente con poca GPU) y DPO / RLHF (para alinear el modelo con preferencias). Empezar con prompting y recurrir al fine-tune solo cuando el prompting demostradamente no llegue.

Este flujo se combina bien con los patrones de proxies LLM para gestionar múltiples modelos sin duplicar lógica.

Self-hosting vs API abierta

Tres modelos de despliegue:

Self-hosting: descargas pesos, corres en tu infraestructura. Control total, coste fijo de hardware.
API de proveedor: Mistral AI, Together.ai, Anyscale, Replicate sirven modelos abiertos pay-per-token. Sin hardware, con coste variable.
Híbrido: datos sensibles on-prem, el resto en API.

El self-hosting solo se justifica si el volumen es alto y constante, si los datos sensibles no pueden salir, si la latencia local es crítica, o si hay compliance estricto. Para el 80% de casos, una API de proveedor abierto (Mistral, Anyscale) es más eficiente.

Checklist de decisión

Para elegir un LLM abierto para empresa, estas siete preguntas filtran las opciones:

Licencia: ¿compatible con tu uso y escala?
Tamaño / hardware: ¿cabe en tu presupuesto de infraestructura?
Idiomas: ¿cubre los idiomas de tus usuarios?
Benchmark propio: ¿rinde bien en tus casos de uso reales?
Proveedor: ¿self-host, API abierta, o híbrido?
Seguridad: ¿el alignment del modelo es suficiente o necesitas capas adicionales?
Roadmap: ¿el proyecto tiene continuidad activa?

Con ese filtro, la oferta se reduce a 2-3 opciones — y ahí la prueba propia decide.

Conclusión

El ecosistema de LLMs abiertos es lo suficientemente maduro para que empresas de casi cualquier tamaño encuentren un modelo viable. Mistral 7B y Mixtral 8x7B son puntos dulces para la mayoría. Llama 2 sigue siendo relevante, especialmente en 70B. Para dominios especializados (código, multilingüe), los modelos de DeepSeek, Qwen y Yi aportan alternativas válidas. La decisión no debe ser “qué tiene mejor MMLU” sino “qué encaja con mi licencia, hardware, idioma y casos reales”.

¿Te ha resultado útil?

[Total: 15 · Media: 4.5]

Post Views: 121

Escrito por

Javier Cañete

CEO - Jacar Systems

Apasionado de la tecnología, la infraestructura cloud y la inteligencia artificial. Escribe sobre DevOps, IA, plataformas y software desde Madrid.