Modelos pre-entrenados y transferencia de aprendizaje
Actualizado: 2026-05-03
Entrenar un modelo de aprendizaje profundo desde cero para una tarea nueva es costoso en datos, tiempo y dinero. La transferencia de aprendizaje (transfer learning) resuelve esto: toma un modelo que ya aprendió representaciones útiles en un dominio grande y lo adapta a una tarea nueva con mucho menos esfuerzo. Es la razón por la que hoy un equipo con un presupuesto modesto puede construir un clasificador de texto preciso o un detector de objetos funcional sin una granja de GPUs propia.
Puntos clave
- Un modelo pre-entrenado es una red neuronal entrenada en un conjunto de datos grande (ImageNet, corpus de texto masivo) que ya ha aprendido representaciones generales del dominio.
- La transferencia de aprendizaje toma esas representaciones y las adapta a una tarea nueva mediante fine-tuning, feature extraction o prompt engineering.
- Los modelos pre-entrenados más relevantes en visión son ResNet, EfficientNet y los modelos de la familia Vision Transformer (ViT); en lenguaje, BERT, GPT, T5 y sus derivados.
- La transferencia funciona mejor cuando el dominio fuente y el dominio objetivo tienen similitudes; cuanto más distantes son, más datos propios se necesitan.
- El fine-tuning tiene riesgos: el ajuste excesivo al conjunto pequeño puede degradar el rendimiento en datos fuera de distribución.
Por qué la transferencia de aprendizaje cambia las reglas
Entrenar un modelo como GPT-3 o BERT desde cero requirió miles de horas de GPU y conjuntos de datos de cientos de gigabytes. Esos recursos están fuera del alcance de la mayoría de equipos. La transferencia de aprendizaje cambia la ecuación:
- Una organización con recursos grandes entrena el modelo base en datos masivos.
- El modelo base aprende representaciones generales: bordes y texturas en imágenes, relaciones semánticas entre palabras, estructuras gramaticales.
- Un equipo con recursos limitados toma ese modelo y lo adapta a su tarea específica con unos pocos miles de ejemplos y unas horas de cómputo.
El resultado suele superar a un modelo entrenado desde cero con los datos propios, porque el modelo base ya conoce el mundo —la distribución general del dominio— y solo necesita aprender las particularidades del nuevo problema.
Cómo funciona: los tres enfoques principales
Feature extraction (extracción de características) Las capas internas del modelo pre-entrenado se congelan —sus pesos no se modifican— y se usan como extractores de características. Solo las capas finales (la “cabeza” del clasificador) se entrenan con los datos nuevos. Es el enfoque más rápido y el que menos datos propios necesita, pero el menos flexible.
Fine-tuning (ajuste fino) Se descongelan algunas o todas las capas del modelo pre-entrenado y se re-entrena con una tasa de aprendizaje muy baja sobre los datos de la tarea nueva. Los pesos ya existentes se ajustan ligeramente, preservando el conocimiento general mientras se adapta a las particularidades del dominio. Es el enfoque más común en producción para visión y NLP.
Prompt engineering y in-context learning Con los modelos de lenguaje grande (LLMs) como GPT-4 o LLaMA, a veces no es necesario ningún entrenamiento adicional. El modelo se condiciona mediante instrucciones en lenguaje natural (prompts) y ejemplos en el contexto de la consulta. Este enfoque es el que subyace a herramientas como Microsoft 365 Copilot.
Modelos pre-entrenados de referencia
En visión por computadora:
- ResNet (He et al., 2015): la arquitectura residual que hizo posible entrenar redes muy profundas. Disponible en variantes de 18 a 152 capas. Punto de partida estándar para clasificación de imágenes y detección de objetos.
- EfficientNet: optimiza el equilibrio entre anchura, profundidad y resolución de la red. Muy eficiente en relación parámetros/precisión.
- CLIP (OpenAI): entrenado con pares imagen-texto, permite realizar zero-shot classification y búsqueda multimodal sin fine-tuning.
En procesamiento de lenguaje natural:
- BERT (Google, 2018): modelo bidireccional pre-entrenado con masked language modeling. Estándar para clasificación de texto, reconocimiento de entidades y respuesta a preguntas.
- GPT y sus variantes (OpenAI): modelos autoregresivos optimizados para generación de texto. GPT-4 es el más potente en la familia.
- T5 (Google): encoder-decoder que convierte cualquier tarea NLP en una tarea de texto-a-texto. Flexible y potente para tareas de traducción, resumen y QA.
Cuándo la transferencia funciona y cuándo no
La transferencia de aprendizaje no es siempre la mejor opción. Las condiciones que favorecen su uso:
- Pocos datos propios: si tienes menos de 10.000 ejemplos etiquetados, partir de un modelo pre-entrenado es casi siempre mejor que entrenar desde cero.
- Dominio similar al del pre-entrenamiento: un clasificador médico de radiografías se beneficia de ResNet pre-entrenado en ImageNet porque la estructura de las imágenes es similar, aunque el dominio semántico difiera.
- Restricciones de tiempo y cómputo: el fine-tuning de un modelo pre-entrenado puede lograrse en horas en lugar de semanas.
Las condiciones que reducen la efectividad:
- Dominio muy distante: si el tipo de datos es radicalmente diferente al del pre-entrenamiento (por ejemplo, señales de radar vs. imágenes naturales), la transferencia puede aportar poco o nada.
- El modelo base tiene sesgos incompatibles: un modelo de lenguaje entrenado en texto inglés puede transferirse mal a idiomas morfológicamente complejos si no existe un modelo base en ese idioma.
- Datos propios abundantes y específicos: si tienes millones de ejemplos del dominio objetivo, entrenar desde cero puede superar al fine-tuning.
Riesgos y buenas prácticas
Fine-tuning catastrófico (catastrophic forgetting) Cuando se ajusta demasiado agresivamente un modelo pre-entrenado con datos pequeños, puede “olvidar” el conocimiento general y sobreajustarse al conjunto de datos propio. Mitigaciones: tasas de aprendizaje bajas, regularización L2, y fine-tuning por etapas (descongelando capas desde las más superficiales a las más profundas).
Fugas de datos en evaluación Si los datos de evaluación tienen alguna similitud con los datos de pre-entrenamiento (por ejemplo, el conjunto de prueba fue part de los datos de entrenamiento del modelo base), las métricas de evaluación serán optimistas. Es imprescindible usar conjuntos de evaluación verdaderamente independientes.
Interpretabilidad Los modelos pre-entrenados añaden una capa de complejidad a la interpretabilidad. Técnicas de XAI como las que se describen en la explicación de la IA a través de XAI son especialmente relevantes cuando se despliegan modelos de gran escala en decisiones de alto impacto.
Conclusión
La transferencia de aprendizaje democratiza el acceso al aprendizaje profundo: equipos sin acceso a datos masivos ni infraestructura de cómputo pueden construir modelos de alta calidad partiendo de bases pre-entrenadas. BERT para NLP, ResNet para visión, CLIP para tareas multimodales —son puntos de partida sólidos para la mayoría de proyectos. El fine-tuning bien ejecutado —con tasas de aprendizaje conservadoras, conjuntos de evaluación independientes y monitorización de degradación— es hoy la estrategia estándar de desarrollo de modelos en entornos con datos limitados.