Inteligencia Artificial

bagging boosting ensemble machine learning random-forest xgboost

Ensamble de aprendizaje en ML

marzo 27, 2023 9 min de lectura 95 lecturas

Índice de contenidos

Puntos clave
Bagging: entrenamiento paralelo sobre submuestras
Boosting: aprendizaje secuencial de errores
Stacking: un metamodelo sobre predictores base
Selección de modelos para el ensamble
Evaluación y validación
Interpretabilidad: el coste del ensamble
Conclusión

Actualizado: 2026-05-03

Los métodos de ensamble son la razón por la que los modelos ganadores de Kaggle casi siempre combinan múltiples predictores en lugar de usar uno solo. La intuición es simple: si un modelo comete errores en ciertos patrones, otro modelo puede compensarlos — siempre que los errores no estén correlacionados.

Puntos clave

Un ensamble combina las predicciones de múltiples modelos para obtener un resultado más preciso y estable que cualquiera de los modelos individuales.
Los tres paradigmas principales son bagging (entrenamiento paralelo sobre submuestras), boosting (entrenamiento secuencial corrigiendo errores) y stacking (un metamodelo aprende a combinar predictores base).
Random Forest (bagging de árboles) y XGBoost/LightGBM (boosting de árboles) dominan el estado del arte en datos tabulares.
La diversidad entre modelos es la condición necesaria para que el ensamble supere a sus componentes.
El coste principal es interpretabilidad: un ensamble es siempre más difícil de explicar que un árbol de decisión único.

Bagging: entrenamiento paralelo sobre submuestras

Bootstrap Aggregating (bagging) genera múltiples versiones del conjunto de entrenamiento mediante muestreo con reemplazamiento (bootstrap), entrena un modelo independiente sobre cada submuestra y combina las predicciones — por votación mayoritaria en clasificación, por promedio en regresión.

Diagrama de bagging: múltiples submuestras bootstrap generan modelos independientes que se combinan mediante votación o promedio en la predicción final

La clave del bagging es que la varianza del ensamble es menor que la de cada modelo individual, siempre que los modelos tengan errores decorrelados. Cada modelo ve una perspectiva ligeramente distinta de los datos; el promedio cancela las idiosincrasias individuales.

Random Forest es la implementación canónica: un bosque de árboles de decisión, cada uno entrenado sobre un bootstrap del dataset y con un subconjunto aleatorio de features disponibles en cada split. El doble nivel de aleatoriedad (datos y features) maximiza la diversidad entre árboles.

Propiedades de Random Forest: – Robusto frente a overfitting en comparación con un árbol único profundo. – Proporciona importancia de variables como subproducto del entrenamiento. – Parallelizable trivialmente — cada árbol es independiente. – Rendimiento sólido con hiperparámetros por defecto.

Boosting: aprendizaje secuencial de errores

El boosting entrena los modelos de forma secuencial, donde cada nuevo modelo se concentra en los ejemplos que los anteriores clasificaron mal. El ensamble final es una suma ponderada de todos los modelos.

El proceso general:

Entrenar un modelo débil (tipicamente un árbol poco profundo) sobre el dataset completo.
Calcular el error residual: la diferencia entre la predicción y el valor real.
Entrenar el siguiente modelo para predecir ese residual.
Sumar el nuevo modelo al ensamble (con una tasa de aprendizaje que escala su contribución).
Repetir hasta alcanzar el número definido de estimadores o hasta que el error de validación deje de mejorar.

XGBoost, LightGBM y CatBoost son las implementaciones más utilizadas. Sus diferencias principales están en la estrategia de construcción del árbol, el manejo de valores nulos y la eficiencia computacional — pero todos comparten el paradigma de gradient boosting.

En competiciones de machine learning con datos tabulares, los modelos de gradient boosting dominan consistentemente. Ver el poder del big data en la toma de decisiones para entender los contextos donde estos modelos aportan más valor.

Stacking: un metamodelo sobre predictores base

El stacking lleva la idea un paso más lejos: en lugar de combinar modelos con reglas fijas (votación, promedio), entrena un metamodelo que aprende a combinar las predicciones de los modelos base de forma óptima.

Proceso típico de stacking con k-fold:

Dividir el dataset en k folds.
Para cada fold: entrenar los modelos base en los k-1 folds restantes, predecir en el fold actual.
Usar las predicciones out-of-fold de los modelos base como features del metamodelo.
Entrenar el metamodelo sobre estas predicciones.

El metamodelo aprende qué modelos base son más fiables en qué tipos de ejemplos. Una combinación clásica para datos tabulares: Random Forest + XGBoost + regresión logística como base, con LightGBM como metamodelo.

Selección de modelos para el ensamble

La condición necesaria para que el ensamble supere a sus componentes es la diversidad. Si todos los modelos base cometen los mismos errores, promediarlos no ayuda.

Fuentes de diversidad:

Diversidad de algoritmos: combinar modelos con sesgos inductivos distintos (árboles, redes neuronales, regresión lineal, SVM).
Diversidad de datos: bagging y sus variantes (pasting, random patches, random subspaces).
Diversidad de hiperparámetros: mismos algoritmos con configuraciones distintas.
Diversidad de features: modelos entrenados sobre subconjuntos distintos de variables.

Para evaluar la diversidad, la matriz de correlación entre las predicciones de los modelos base es el indicador más directo: alta correlación indica poca diversidad adicional.

Evaluación y validación

Los métodos estándar de evaluación aplican al ensamble, pero hay que tener cuidado con una trampa frecuente:

Data leakage en stacking: si el metamodelo se entrena sobre predicciones in-sample de los modelos base (en lugar de out-of-fold), aprende patrones del overfitting y no de la generalización real. La validación cruzada anidada (nested cross-validation) es la forma correcta de evaluar la cadena completa.

Sobreoptimización del ensamble: añadir más modelos base no siempre mejora el rendimiento y siempre aumenta el coste computacional. El retorno marginal suele decrecer rápidamente.

La conexión con aprendizaje federado y privacidad es relevante: en escenarios donde los datos no pueden centralizarse, cada participante entrena su propio modelo y el servidor central puede usar técnicas de ensamble para combinar los modelos locales preservando la privacidad.

Interpretabilidad: el coste del ensamble

Un árbol de decisión único es completamente interpretable: se puede seguir el camino de cada predicción de la raíz a la hoja. Un ensamble de 500 árboles no lo es. Esta tensión entre rendimiento e interpretabilidad es fundamental en dominios de alto riesgo.

Técnicas que alivian el problema:

Feature importance de Random Forest o XGBoost: indica qué variables contribuyen más al poder predictivo global.
SHAP values: descomponen la predicción de cada ejemplo individual en contribuciones por feature. Es el estándar actual para explicabilidad de ensambles.
Partial Dependence Plots (PDP): muestran el efecto marginal de una feature sobre la predicción, promediado sobre el dataset.

Ver la explicación de la IA a través de XAI para el contexto más amplio de interpretabilidad en modelos complejos.

Conclusión

Los métodos de ensamble son la tecnología más madura y probada del machine learning clásico para datos tabulares. Bagging reduce la varianza, boosting reduce el sesgo, y stacking combina lo mejor de múltiples enfoques. La condición para que funcionen es la diversidad: modelos que fallen de forma diferente se complementan; modelos que fallen de la misma forma solo suman ruido.

¿Te ha resultado útil?

[Total: 11 · Media: 4.7]

Post Views: 95

Escrito por

Javier Cañete

CEO - Jacar Systems

Apasionado de la tecnología, la infraestructura cloud y la inteligencia artificial. Escribe sobre DevOps, IA, plataformas y software desde Madrid.

Ensamble de aprendizaje en ML

Puntos clave

Bagging: entrenamiento paralelo sobre submuestras

Boosting: aprendizaje secuencial de errores

Stacking: un metamodelo sobre predictores base

Selección de modelos para el ensamble

Evaluación y validación

Interpretabilidad: el coste del ensamble

Conclusión

Entradas relacionadas

Sistemas multi-agente: LangGraph vs CrewAI vs Autogen en 2026

Cómo construir un agente productivo con el SDK de Anthropic, paso a paso

Claude Code vs Cursor vs GitHub Copilot en 2026: comparativa con tareas medidas

MCP (Model Context Protocol) en 2026: guía completa para equipos técnicos