Mascota Jacar — leyendo contigo Un portátil cuyos ojos siguen el cursor mientras lees.
Inteligencia Artificial Metodologías

Elegir un LLM abierto para empresa en 2024

Elegir un LLM abierto para empresa en 2024

Actualizado: 2026-05-03

Hace un año, “LLM abierto para empresa” significaba básicamente Llama 2. Hoy el panorama es más rico: Mistral 7B y Mixtral 8x7B, Qwen 1.5, Yi 34B, DeepSeek, Phi-2 y varios más. El abanico de opciones hace que elegir sea más difícil, no menos. Este artículo es una guía para decidir con criterios empresariales — no solo los benchmarks de moda.

Puntos clave

  • La licencia va primero, no el benchmark: elegir un modelo y descubrir luego que la licencia no permite uso comercial es el error número uno.
  • Mistral 7B y Mixtral 8x7B son los puntos dulces para la mayoría de empresas medianas por su combinación de rendimiento, tamaño y licencia Apache 2.0.
  • Para el 80% de casos empresariales, prompt engineering + RAG es suficiente sin fine-tuning.
  • El self-hosting solo se justifica con alto volumen constante, datos que no pueden salir, o compliance estricto.
  • Los benchmarks académicos son útiles pero no suficientes — siempre complementar con evaluación propia sobre tus casos de uso reales.

Los candidatos

Los modelos abiertos que merecen evaluación seria a principios de 2024:

  • Llama 2[1] (Meta): 7B/13B/70B. Base sólida, licencia restrictiva para uso comercial grande.
  • Mistral 7B[2] y Mixtral 8x7B[3] (Mistral AI): Apache 2.0, excelente relación rendimiento/tamaño.
  • Qwen 1.5[4] (Alibaba): 0.5B hasta 72B, soporte multilingüe fuerte.
  • Yi[5] (01.AI): 6B/34B, buena en chino e inglés, licencia comercial permisiva.
  • DeepSeek[6]: varios tamaños, muy fuerte en código y matemáticas.
  • Phi-2[7] (Microsoft): 2.7B — pequeño pero competitivo en razonamiento.
  • CodeLlama[8] (Meta): Llama afinado para código, varios tamaños.

La frontera se mueve rápido — estos son los serios a fecha de esta publicación.

Licencia: primero, no último

El error número uno: elegir por benchmark y luego descubrir que la licencia no permite uso comercial. Las situaciones más habituales:

  • Apache 2.0 (Mistral, Mixtral, Yi): libre para comercial sin restricciones de tamaño.
  • MIT (Phi-2): libre, orientado a investigación.
  • Llama 2 License: permite comercial con cláusulas — restricciones si superas 700M MAU, obligación de indicar “Built with Llama 2”.
  • Tongyi Qianwen License (Qwen): permite comercial bajo umbrales, similar a Llama 2.
  • Licencias “Community”: a veces sí, a veces no. Leer el texto completo antes de comprometerse.

Para empresa grande, Apache 2.0 es la más tranquila. Para empresa mediana, las licencias de Meta o Alibaba son aceptables si cumples los umbrales.

Benchmarks: útiles pero limitados

MMLU, HellaSwag y GSM8K son los más conocidos públicamente. Sus limitaciones conocidas:

  • Contaminación: muchos modelos pueden haber visto los tests durante el entrenamiento.
  • Gaming: algunos modelos se optimizan explícitamente para benchmarks específicos.
  • Distancia del uso real: “razonar sobre trivia” no es equivalente a “resolver mi problema de negocio”.

Los benchmarks académicos son útiles pero no suficientes. Siempre complementar con evaluaciones propias sobre tus casos de uso reales: el modelo que rinde bien en MMLU puede rendir mal en tus documentos del dominio.

El hardware necesario

El hardware filtra opciones rápido. Aproximaciones para inferencia (no entrenamiento):

Modelo FP16 INT8 INT4 (GGUF)
Llama 2 7B 14 GB 8 GB 4 GB
Mistral 7B 14 GB 8 GB 4 GB
Llama 2 13B 26 GB 15 GB 7 GB
Mixtral 8x7B 94 GB 48 GB 25 GB
Llama 2 70B 140 GB 75 GB 40 GB
Yi 34B 68 GB 38 GB 20 GB

Implicaciones prácticas: el 7B cuantizado cabe en una RTX 4090 consumer (24 GB) o en un portátil M2/M3 de 16 GB; Mixtral 8x7B necesita una A100 40 GB; Llama 70B requiere A100 80 GB o dos A100 40 GB. Para self-hosting real, los modelos de 7B y 34B son los más prácticos. Los de 70B en adelante requieren infraestructura cara.

Calidad por categoría de uso

Sin ser exhaustivo, impresiones en casos reales:

Para código: DeepSeek Coder y CodeLlama dominan; Mixtral 8x7B es competitivo a escala menor.

Para resumen y análisis de texto: Mistral 7B sorprende para su tamaño; Mixtral 8x7B se acerca a GPT-3.5; Yi 34B es competitivo con contextos largos.

Para español y portugués: Qwen 1.5 y Mixtral son los más fuertes; Llama 2 funciona pero nota la falta de entrenamiento multilingüe.

Para matemáticas y razonamiento: DeepSeek Math (especializado) es excepcional; Yi 34B y Mixtral son aceptables.

Las diferencias de 5-10% en benchmarks académicos son irrelevantes si el modelo no funciona bien en tu dominio específico.

Inference serving

Las opciones maduras para servir modelos:

  • vLLM[9]: máximo throughput en GPU.
  • TGI[10] (Hugging Face): integración con el ecosistema HF.
  • llama.cpp[11]: CPU y Apple Silicon.
  • Ollama[12]: sobre llama.cpp, experiencia de usuario pulida para desarrollo.
  • LMDeploy[13]: alternativa con buen rendimiento.

Para empresa: vLLM para throughput, Ollama para desarrolladores individuales.

Fine-tuning: cuándo sí y cuándo no

En la mayoría de casos empresariales, no necesitas fine-tuning. Prompt engineering + RAG cubre el 80%. El fine-tuning tiene sentido cuando tienes datos muy específicos de dominio (medicina, legal técnico, interno de tu empresa), cuando la latencia es crítica y el prompt largo no cabe, o cuando necesitas un tono o voz específico imposible de conseguir con prompting.

Las técnicas más útiles son LoRA / QLoRA (fine-tune eficiente con poca GPU) y DPO / RLHF (para alinear el modelo con preferencias). Empezar con prompting y recurrir al fine-tune solo cuando el prompting demostradamente no llegue.

Este flujo se combina bien con los patrones de proxies LLM para gestionar múltiples modelos sin duplicar lógica.

Self-hosting vs API abierta

Tres modelos de despliegue:

  • Self-hosting: descargas pesos, corres en tu infraestructura. Control total, coste fijo de hardware.
  • API de proveedor: Mistral AI, Together.ai, Anyscale, Replicate sirven modelos abiertos pay-per-token. Sin hardware, con coste variable.
  • Híbrido: datos sensibles on-prem, el resto en API.

El self-hosting solo se justifica si el volumen es alto y constante, si los datos sensibles no pueden salir, si la latencia local es crítica, o si hay compliance estricto. Para el 80% de casos, una API de proveedor abierto (Mistral, Anyscale) es más eficiente.

Checklist de decisión

Para elegir un LLM abierto para empresa, estas siete preguntas filtran las opciones:

  1. Licencia: ¿compatible con tu uso y escala?
  2. Tamaño / hardware: ¿cabe en tu presupuesto de infraestructura?
  3. Idiomas: ¿cubre los idiomas de tus usuarios?
  4. Benchmark propio: ¿rinde bien en tus casos de uso reales?
  5. Proveedor: ¿self-host, API abierta, o híbrido?
  6. Seguridad: ¿el alignment del modelo es suficiente o necesitas capas adicionales?
  7. Roadmap: ¿el proyecto tiene continuidad activa?

Con ese filtro, la oferta se reduce a 2-3 opciones — y ahí la prueba propia decide.

Conclusión

El ecosistema de LLMs abiertos es lo suficientemente maduro para que empresas de casi cualquier tamaño encuentren un modelo viable. Mistral 7B y Mixtral 8x7B son puntos dulces para la mayoría. Llama 2 sigue siendo relevante, especialmente en 70B. Para dominios especializados (código, multilingüe), los modelos de DeepSeek, Qwen y Yi aportan alternativas válidas. La decisión no debe ser “qué tiene mejor MMLU” sino “qué encaja con mi licencia, hardware, idioma y casos reales”.

¿Te ha resultado útil?
[Total: 15 · Media: 4.5]
  1. Llama 2
  2. Mistral 7B
  3. Mixtral 8x7B
  4. Qwen 1.5
  5. Yi
  6. DeepSeek
  7. Phi-2
  8. CodeLlama
  9. vLLM
  10. TGI
  11. llama.cpp
  12. Ollama
  13. LMDeploy

Escrito por

CEO - Jacar Systems

Apasionado de la tecnología, la infraestructura cloud y la inteligencia artificial. Escribe sobre DevOps, IA, plataformas y software desde Madrid.