Elegir un LLM abierto para empresa en 2024

Monitor con código fuente y gráficas de rendimiento computacional

Hace un año, “LLM abierto para empresa” significaba básicamente Llama 2. Hoy el panorama es más rico: Mistral 7B y Mixtral 8x7B (francés), Qwen 1.5 (chino), Yi 34B (chino), DeepSeek, Phi-2 (Microsoft), y varios más. El abanico de opciones hace que elegir sea más difícil, no menos. Este artículo es una guía para decidir con criterios empresariales — no solo los benchmarks de moda.

Los candidatos en 2024

Los abiertos que merecen evaluación seria:

  • Llama 2 (Meta): 7B/13B/70B. Base sólida, licencia restrictiva para uso comercial grande.
  • Mistral 7B y Mixtral 8x7B (Mistral AI): Apache 2.0, excelente relación rendimiento/tamaño.
  • Qwen 1.5 (Alibaba): 0.5B hasta 72B, soporte multilingüe fuerte.
  • Yi (01.AI): 6B/34B, buena en chino e inglés, licencia comercial permisiva.
  • DeepSeek: varios tamaños, muy fuerte en código y matemáticas.
  • Phi-2 (Microsoft): 2.7B — pequeño pero competitivo, investigación.
  • CodeLlama (Meta): Llama afinado para código. Varios tamaños.

La frontera se mueve rápido — estos son los serios en febrero 2024.

Licencia: primero, no último

El error número uno: elegir por benchmark y luego descubrir que la licencia no permite uso comercial.

  • Apache 2.0 (Mistral, Mixtral, Yi): libre para comercial.
  • MIT (Phi-2): libre, researchy.
  • Llama 2 License: permite comercial pero con cláusulas — restricciones si tienes >700M MAU, debes mostrar “Built with Llama 2”.
  • Tongyi Qianwen License (Qwen): permite comercial bajo umbrales; similar a Llama 2.
  • Licencias “Community” (muchos modelos chinos): a veces sí, a veces no. Leer.

Para empresa grande, Apache 2.0 es la más tranquila. Para empresa mediana, las de Meta/Alibaba son aceptables si cumples umbrales.

Benchmarks: útiles pero limitados

MMLU, HellaSwag, GSM8K son los tops públicos. Problemas conocidos:

  • Contamination: muchos modelos pueden haber visto los tests en entrenamiento.
  • Gaming: algunos modelos se optimizan para benchmarks específicos.
  • Lejanía del uso real: “razonar sobre trivia” no es “resolver mi problema de negocio”.

Useful-but-not-sufficient. Siempre complementar con benchmarks propios sobre tus casos de uso reales.

El hardware necesario

Esto filtra opciones rápido. Aproximaciones para inferencia (no training):

Modelo FP16 INT8 INT4 (GGUF)
Llama 2 7B 14GB 8GB 4GB
Mistral 7B 14GB 8GB 4GB
Llama 2 13B 26GB 15GB 7GB
Mixtral 8x7B 94GB 48GB 25GB
Llama 2 70B 140GB 75GB 40GB
Yi 34B 68GB 38GB 20GB

Implicaciones:

  • 7B cuantizado cabe en RTX 4090 consumer (24GB) o laptop M2/M3 de 16GB.
  • Mixtral 8x7B necesita A100 40GB (o 2×24GB con offload).
  • Llama 70B requiere A100 80GB o 2×A100 40GB.

Para self-hosting real, las opciones 7B y 34B son las más prácticas. 70B+ requiere infraestructura cara.

Calidad por categoría

Sin ser exhaustivo, nuestras impresiones subjetivas en casos reales:

Código:

  • DeepSeek Coder y CodeLlama dominan.
  • Mixtral 8x7B es competitivo a escala menor.

Resumen y análisis texto:

  • Mistral 7B sorprendentemente bueno para su tamaño.
  • Mixtral 8x7B cerca de GPT-3.5.
  • Yi 34B competitivo, fuerte en contextos largos.

Español / Portugués:

  • Qwen 1.5 y Mixtral son los más fuertes.
  • Llama 2 “funciona” pero nota la falta de entrenamiento multilingüe.

Matemáticas y razonamiento:

  • DeepSeek Math (especializado) excepcional.
  • Yi 34B, Mixtral aceptables.

Creative writing:

  • Llama 2 tiene menos filters, mejor para ficción.
  • Mistral tiene “voice” más neutra.

Probar con tus casos reales. Las diferencias de 5-10% en benchmarks académicos son irrelevantes si tu modelo no funciona bien en tu dominio.

Inference serving

Opciones maduras:

  • vLLM: máximo throughput en GPU.
  • TGI (Hugging Face): integración ecosistema HF.
  • llama.cpp: CPU y Apple Silicon.
  • Ollama: sobre llama.cpp, experience usuario pulida.
  • LMDeploy: alternativo con buen rendimiento.

Para empresa: vLLM para throughput, Ollama para developers individuales.

Fine-tuning

En la mayoría de casos empresariales, no necesitas fine-tune. Prompt engineering + RAG cubre el 80%. Cuando sí tiene sentido:

  • Datos muy específicos de dominio (medicina, legal técnico, interno de tu empresa).
  • Latency crítica donde el prompt largo no cabe.
  • Tono/voice específico imposible de conseguir con prompting.

Técnicas:

  • LoRA / QLoRA: fine-tune eficiente con poca GPU. Mistral 7B se puede fine-tunar en un A100 24GB.
  • Full fine-tune: raro en empresa, requiere hardware pesado.
  • DPO / RLHF: para alinear el modelo con preferencias.

Empezar con prompting. Fine-tune solo cuando prompting demostradamente no llegue.

Seguridad y safety

Modelos abiertos varían en alignment:

  • Llama 2 Chat: muy filtrado, a veces demasiado cauteloso.
  • Mistral 7B Instruct: alignment moderado, más flexible.
  • Mixtral 8x7B Instruct: balance razonable.
  • Modelos chinos (Qwen, Yi): alignment con sensibilidades culturales distintas (censura en temas políticos específicos).
  • Base models sin instruct: sin filter — completa cualquier cosa. Para uso directo necesita capa de safety.

Para empresa: casi siempre queremos modelo instruct + capas adicionales (content moderation, etc).

Self-hosting vs API abierta

Tres modelos:

  • Self-hosting: descargas pesos, corres en tu infra. Control total, coste fijo hardware.
  • API proveedor: Mistral AI, Together.ai, Anyscale, Replicate servicios modelos abiertos pay-per-token. Sin hardware, con coste variable.
  • Híbrido: sensitive data on-prem, resto en API.

El self-hosting solo justifica si:

  • Volumen alto y constante (economía de escala).
  • Sensitive data que no puede salir.
  • Latency crítica local.
  • Compliance estricta.

Para el 80% de casos, una API de provider abierto (Mistral, Anyscale) es más eficiente.

Contratos empresariales

Para empresa mediana-grande:

  • Mistral AI ofrece Mistral La Plateforme con contratos enterprise.
  • Together.ai, Anyscale dan SLAs.
  • Hugging Face Inference Endpoints para self-service pro.
  • Cloudflare Workers AI para edge serverless.

SLAs, data residency, indemnification — elementos típicos de contrato.

Checklist de decisión

Para elegir LLM abierto para empresa:

  1. Licencia: ¿compatible con tu uso?
  2. Tamaño / hardware: ¿cabe en tu presupuesto de infraestructura?
  3. Idiomas: ¿cubre los idiomas de tu uso?
  4. Benchmark propio: ¿rinde en tus casos reales?
  5. Proveedor: ¿self-host, API abierta, o híbrido?
  6. Seguridad: ¿alignment suficiente o capas añadidas?
  7. Roadmap: ¿el proyecto tiene continuidad?

Conclusión

El ecosistema de LLMs abiertos en 2024 es lo suficientemente maduro para que empresas de casi cualquier tamaño encuentren un modelo viable. Mistral 7B y Mixtral 8x7B son puntos dulces para la mayoría. Llama 2 sigue siendo relevante, especialmente en 70B. Para dominios especializados (código, multilingüe) los modelos chinos (DeepSeek, Qwen, Yi) aportan alternativas válidas. La decisión no debe ser “qué tiene mejor MMLU” sino “qué encaja con mi licencia, hardware, idioma y casos reales”. Con ese filtro, la oferta se reduce a 2-3 opciones — y ahí la prueba propia decide.

Síguenos en jacar.es para más sobre LLMs, IA empresarial y arquitecturas RAG.

Entradas relacionadas