Fine-tuning de LLM: cuándo merece la pena entrenar el tuyo

Estructuras de datos conectadas representando entrenamiento de IA

En 2023 la pregunta “¿deberíamos fine-tunear nuestro propio LLM?” llega a mesas de arquitectura casi cada mes. La respuesta corta, casi siempre, es todavía no. La respuesta larga es que existen casos legítimos, que los costes han bajado — pero siguen siendo considerables — y que alternativas como RAG o prompt engineering resuelven el 80% de las necesidades sin los costes operativos del entrenamiento.

Los tres niveles de personalización

Para situar el problema, hay tres capas de personalización de un LLM, de menor a mayor coste:

  1. Prompt engineering: ajustar instrucciones, ejemplos few-shot, chain-of-thought. Coste marginal, iteración en minutos. Cubre la gran mayoría de tareas bien definidas.
  2. Retrieval-Augmented Generation (RAG): recuperar fragmentos relevantes de una base de conocimiento y pasarlos al modelo en el contexto. Coste medio (embeddings + vector store), iteración en días.
  3. Fine-tuning: modificar los pesos del modelo con ejemplos propios. Coste alto (datos, GPUs, validación), iteración en semanas.

Saltar directamente al fine-tuning es el error más común. La mayoría de equipos que lo intentan podrían haber obtenido resultados equivalentes o mejores con un RAG bien diseñado.

Cuándo fine-tuning tiene sentido real

Tres casos donde el fine-tuning justifica su coste:

  • Estilo/voz muy específico. Si necesitas que el modelo responda con la personalidad exacta de una marca, con modismos, estructuras gramaticales o un tono que no puedes capturar con un system prompt largo, el fine-tuning lo internaliza.
  • Formato de salida muy estructurado. Modelos afinados para devolver siempre un JSON específico, o para seguir un esquema de markup propio, son más fiables que los prompteados — el formato pasa a estar “cosido” al modelo.
  • Reducción de coste y latencia con modelos pequeños. Un modelo de 7B parámetros fine-tuneado sobre tu dominio puede igualar o superar a GPT-3.5 para esa tarea concreta, con un 10-20% del coste por token y mejor latencia.

Fuera de estos casos, RAG suele ganar.

LoRA y QLoRA: fine-tuning accesible

El gran cambio de 2022-2023 es que el fine-tuning ha pasado de “necesitas 8 A100” a “puedes hacerlo en una RTX 4090”. La técnica clave es LoRA (Low-Rank Adaptation): en vez de entrenar todos los pesos, añades matrices de rango bajo sobre el modelo congelado. El resultado es prácticamente idéntico al full fine-tuning con 1% del coste de GPU.

QLoRA, publicado en mayo de 2023, combina LoRA con cuantización a 4 bits. Permite fine-tunear modelos de 65 mil millones de parámetros en una sola GPU con 48 GB de VRAM. Hace seis meses esto era impensable.

Librerías como PEFT de Hugging Face y axolotl envuelven estos métodos con configuración declarativa. Un pipeline de LoRA sobre Llama 2 7B se expresa en un YAML de 30 líneas.

Lo que realmente cuesta

El coste real del fine-tuning no es las GPUs — es todo lo demás:

  • Preparar el dataset. Entre 500 y 5000 ejemplos de calidad (prompt + respuesta ideal) requieren inversión manual sustancial. Los ejemplos mal diseñados envenenan el modelo con sesgos y fallos.
  • Iteración y evaluación. Un fine-tune malo puede parecer bueno en el caso feliz y fallar catastróficamente en los casos frontera. Hacen falta evals automatizados antes y después.
  • Operación en producción. Un modelo propio significa gestionar inferencia, actualizaciones, monitorización de drift. Esto ya no es “llamar a una API”.

Presupuesto realista para un primer fine-tune serio: 2-3 semanas de ingeniería + 1-5k USD en GPU + un MLOps pipeline básico para evaluación.

Alternativas antes de decidir

Antes de fine-tuning, agotar estas opciones:

  1. RAG sobre tu dominio. Con pgvector o Pinecone más un buen reranking, cubres “el modelo necesita conocer datos específicos de la empresa” sin entrenar nada.
  2. Prompts más largos con ejemplos cuidadosos. GPT-4 con 16 ejemplos few-shot a menudo supera a un modelo 7B fine-tuneado si los ejemplos son buenos.
  3. Function calling con respuesta estructurada. Si lo que buscas es estructura, como vimos en prompt engineering como disciplina madura, function calling resuelve casi todo sin entrenar.
  4. Modelos especializados ya existentes. Para tareas comunes (código, médico, legal) existen modelos fine-tuneados de la comunidad: CodeLlama, Med-PaLM, entre otros.

Ver también comparativa de BD vectoriales como base del pipeline RAG que casi siempre resuelve el caso de conocimiento específico.

Conclusión

Fine-tuning ha democratizado técnicamente gracias a LoRA y QLoRA, pero operacionalmente sigue siendo una inversión seria. Para la gran mayoría de equipos en 2023, empezar por prompt engineering + RAG es la vía correcta; el fine-tuning queda reservado a problemas donde los otros dos han tocado techo con evidencia clara.

Síguenos en jacar.es para más sobre MLOps, LLMs en producción y estrategia de IA.

Entradas relacionadas