En 2023 la pregunta “¿deberíamos fine-tunear nuestro propio LLM?” llega a mesas de arquitectura casi cada mes. La respuesta corta, casi siempre, es todavía no. La respuesta larga es que existen casos legítimos, que los costes han bajado — pero siguen siendo considerables — y que alternativas como RAG o prompt engineering resuelven el 80% de las necesidades sin los costes operativos del entrenamiento.
Los tres niveles de personalización
Para situar el problema, hay tres capas de personalización de un LLM, de menor a mayor coste:
- Prompt engineering: ajustar instrucciones, ejemplos few-shot, chain-of-thought. Coste marginal, iteración en minutos. Cubre la gran mayoría de tareas bien definidas.
- Retrieval-Augmented Generation (RAG): recuperar fragmentos relevantes de una base de conocimiento y pasarlos al modelo en el contexto. Coste medio (embeddings + vector store), iteración en días.
- Fine-tuning: modificar los pesos del modelo con ejemplos propios. Coste alto (datos, GPUs, validación), iteración en semanas.
Saltar directamente al fine-tuning es el error más común. La mayoría de equipos que lo intentan podrían haber obtenido resultados equivalentes o mejores con un RAG bien diseñado.
Cuándo fine-tuning tiene sentido real
Tres casos donde el fine-tuning justifica su coste:
- Estilo/voz muy específico. Si necesitas que el modelo responda con la personalidad exacta de una marca, con modismos, estructuras gramaticales o un tono que no puedes capturar con un system prompt largo, el fine-tuning lo internaliza.
- Formato de salida muy estructurado. Modelos afinados para devolver siempre un JSON específico, o para seguir un esquema de markup propio, son más fiables que los prompteados — el formato pasa a estar “cosido” al modelo.
- Reducción de coste y latencia con modelos pequeños. Un modelo de 7B parámetros fine-tuneado sobre tu dominio puede igualar o superar a GPT-3.5 para esa tarea concreta, con un 10-20% del coste por token y mejor latencia.
Fuera de estos casos, RAG suele ganar.
LoRA y QLoRA: fine-tuning accesible
El gran cambio de 2022-2023 es que el fine-tuning ha pasado de “necesitas 8 A100” a “puedes hacerlo en una RTX 4090”. La técnica clave es LoRA (Low-Rank Adaptation): en vez de entrenar todos los pesos, añades matrices de rango bajo sobre el modelo congelado. El resultado es prácticamente idéntico al full fine-tuning con 1% del coste de GPU.
QLoRA, publicado en mayo de 2023, combina LoRA con cuantización a 4 bits. Permite fine-tunear modelos de 65 mil millones de parámetros en una sola GPU con 48 GB de VRAM. Hace seis meses esto era impensable.
Librerías como PEFT de Hugging Face y axolotl envuelven estos métodos con configuración declarativa. Un pipeline de LoRA sobre Llama 2 7B se expresa en un YAML de 30 líneas.
Lo que realmente cuesta
El coste real del fine-tuning no es las GPUs — es todo lo demás:
- Preparar el dataset. Entre 500 y 5000 ejemplos de calidad (prompt + respuesta ideal) requieren inversión manual sustancial. Los ejemplos mal diseñados envenenan el modelo con sesgos y fallos.
- Iteración y evaluación. Un fine-tune malo puede parecer bueno en el caso feliz y fallar catastróficamente en los casos frontera. Hacen falta evals automatizados antes y después.
- Operación en producción. Un modelo propio significa gestionar inferencia, actualizaciones, monitorización de drift. Esto ya no es “llamar a una API”.
Presupuesto realista para un primer fine-tune serio: 2-3 semanas de ingeniería + 1-5k USD en GPU + un MLOps pipeline básico para evaluación.
Alternativas antes de decidir
Antes de fine-tuning, agotar estas opciones:
- RAG sobre tu dominio. Con pgvector o Pinecone más un buen reranking, cubres “el modelo necesita conocer datos específicos de la empresa” sin entrenar nada.
- Prompts más largos con ejemplos cuidadosos. GPT-4 con 16 ejemplos few-shot a menudo supera a un modelo 7B fine-tuneado si los ejemplos son buenos.
- Function calling con respuesta estructurada. Si lo que buscas es estructura, como vimos en prompt engineering como disciplina madura, function calling resuelve casi todo sin entrenar.
- Modelos especializados ya existentes. Para tareas comunes (código, médico, legal) existen modelos fine-tuneados de la comunidad: CodeLlama, Med-PaLM, entre otros.
Ver también comparativa de BD vectoriales como base del pipeline RAG que casi siempre resuelve el caso de conocimiento específico.
Conclusión
Fine-tuning ha democratizado técnicamente gracias a LoRA y QLoRA, pero operacionalmente sigue siendo una inversión seria. Para la gran mayoría de equipos en 2023, empezar por prompt engineering + RAG es la vía correcta; el fine-tuning queda reservado a problemas donde los otros dos han tocado techo con evidencia clara.
Síguenos en jacar.es para más sobre MLOps, LLMs en producción y estrategia de IA.