Mascota Jacar — leyendo contigo Un portátil cuyos ojos siguen el cursor mientras lees.
Inteligencia Artificial

Recomendación y filtrado colaborativo: sistemas eficaces

Recomendación y filtrado colaborativo: sistemas eficaces

Actualizado: 2026-05-03

El 35% de las compras en Amazon y el 80% del contenido consumido en Netflix provienen de recomendaciones algorítmicas. Detrás de esa cifra hay sistemas que procesan el historial de millones de usuarios para predecir qué producto o contenido tiene más probabilidad de interesar a cada persona en ese momento. La técnica dominante es el filtrado colaborativo, y entender cómo funciona es entender uno de los motores de valor más importantes del comercio digital.

Puntos clave

  • Los sistemas de recomendación se dividen en dos grandes familias: basados en contenido (usan las características del ítem) y colaborativos (usan el comportamiento de los usuarios).
  • El filtrado colaborativo tiene dos variantes: basado en vecindarios (busca usuarios similares) y basado en modelos (factoriza la matriz de interacciones).
  • La factorización de matrices (Matrix Factorization) y los modelos de embeddings con redes neuronales son el estado del arte en producción.
  • Las métricas de evaluación más usadas son precisión, recall, NDCG y diversidad; cada una captura un aspecto diferente de la calidad del sistema.
  • El problema del arranque en frío (cold start) —usuarios nuevos sin historial— es el principal punto débil del filtrado colaborativo puro.

Tipos de sistemas de recomendación

Filtrado basado en contenido Este enfoque recomienda ítems similares a los que el usuario ha interaccionado previamente, basándose en las características del ítem: género, autor, precio, características técnicas. Un sistema de música basado en contenido recomendaría canciones del mismo artista o del mismo género que las que el usuario ya escucha.

Ventaja: no necesita datos de otros usuarios; funciona bien desde el primer ítem del historial. Desventaja: tiende a la sobre-especialización (el usuario nunca descubre nada nuevo) y requiere un catálogo bien etiquetado con metadatos de calidad.

Filtrado colaborativo En lugar de mirar las características del ítem, mira el comportamiento de los usuarios. La premisa: usuarios con comportamientos similares en el pasado tendrán preferencias similares en el futuro. Netflix no necesita saber que una serie es de suspense para recomendarla; le basta con saber que las personas que tienen un historial parecido al tuyo la han visto y valorado bien.

El filtrado colaborativo es el enfoque dominante porque escala mejor y es agnóstico del contenido —funciona igual para películas, productos, canciones o artículos de noticias.

Variantes del filtrado colaborativo

Basado en vecindarios (Memory-based) Busca directamente en la matriz de usuarios × ítems para encontrar los usuarios más similares al usuario objetivo (user-based) o los ítems más similares a los que ha interaccionado (item-based). La similitud se mide típicamente con coseno o correlación de Pearson.

Es conceptualmente simple y explicable —se puede decir exactamente qué usuarios similares influyeron en la recomendación— pero escala mal con millones de usuarios e ítems, y sufre con matrices muy dispersas.

Basado en modelos (Model-based) En lugar de buscar directamente en la matriz, aprende una representación compacta (modelo) de usuarios e ítems. La técnica más importante es la factorización de matrices (Matrix Factorization, popularizada por el Netflix Prize de 2009):

  • La matriz de interacciones usuarios × ítems se descompone en dos matrices de menor dimensión: vectores latentes de usuarios y vectores latentes de ítems.
  • El producto de esos vectores predice la interacción esperada.
  • El entrenamiento minimiza el error en las interacciones conocidas.

Los modelos basados en embeddings con redes neuronales han superado a la factorización clásica en los últimos años. Arquitecturas como Neural Collaborative Filtering (NCF) o los modelos de Two-Tower aprenden representaciones más ricas que capturan no linealidades en las preferencias.

El problema del cold start

El punto débil del filtrado colaborativo es el arranque en frío: un usuario nuevo sin historial o un ítem nuevo sin interacciones no tienen vectores latentes; el sistema no sabe cómo recomendarlos.

Las estrategias para mitigarlo incluyen:

  • Preguntas de onboarding: pedir al usuario que califique un conjunto de ítems representativos al registrarse.
  • Datos demográficos o contextuales: usar la edad, la ubicación o el dispositivo como señales iniciales hasta que se acumule historial.
  • Filtrado basado en popularidad: recomendar los ítems más populares globalmente hasta que haya suficientes datos del usuario.
  • Modelos híbridos: combinar filtrado colaborativo con filtrado basado en contenido; el contenido suple las interacciones cuando escasean.

Amazon combina estos enfoques: para un usuario nuevo, muestra bestsellers del sector; a medida que el usuario interactúa, el sistema colaborativo toma el relevo.

Cómo se evalúa un sistema de recomendación

La evaluación offline usa conjuntos de interacciones históricas divididos en entrenamiento y test. Las métricas más usadas:

  • Precisión@K: de los K ítems recomendados, ¿qué proporción son relevantes? Mide la exactitud.
  • Recall@K: de todos los ítems relevantes, ¿qué proporción aparecen en los K recomendados? Mide la cobertura.
  • NDCG (Normalized Discounted Cumulative Gain): pondera la relevancia por la posición; una recomendación relevante en posición 1 cuenta más que en posición 10. Es la métrica estándar en sistemas donde el orden importa.
  • Diversidad: mide cuán diferentes son los ítems recomendados entre sí. Un sistema preciso pero que siempre recomienda lo mismo es deficiente.
  • Novedad: mide si el sistema recomienda ítems que el usuario no habría descubierto de otra forma.

La evaluación offline tiene un límite importante: no captura el efecto de la recomendación en el comportamiento real del usuario. Los tests A/B en producción —midiendo clics, tiempo de consumo o compras— son el complemento necesario, como se señala en los principios de metodologías para definir objetivos: la métrica de negocio real es la que valida el sistema.

Aplicaciones reales y resultados

Netflix: combina filtrado colaborativo, señales de contenido y modelos de secuencia temporal (qué has visto recientemente). El 80% del contenido consumido viene de recomendaciones; la compañía estima que el sistema ahorra más de 1.000 millones de dólares anuales en churn que evita.

Amazon: el motor de recomendaciones “Customers who bought X also bought Y” es item-based collaborative filtering. Contribuye al 35% de las ventas. La misma infraestructura se usa en recomendaciones de búsqueda y emails personalizados.

Spotify: usa redes neuronales para aprender embeddings de canciones a partir de co-ocurrencias en playlists. El resultado permite recomendar canciones de artistas desconocidos que sonoramente encajan con las preferencias del usuario —un caso de uso donde el filtrado basado en contenido solo sería insuficiente.

La explicabilidad de estos sistemas está ganando importancia, tanto por requisitos normativos como por UX. Las técnicas de XAI aplicadas a sistemas de recomendación permiten generar explicaciones como “te recomendamos esto porque usuarios similares a ti también lo vieron” —que tienen un efecto positivo en la confianza del usuario.

Conclusión

El filtrado colaborativo es el corazón de los sistemas de recomendación más eficaces del mundo digital. La factorización de matrices y los modelos de embeddings neuronales permiten personalizar experiencias a escala de millones de usuarios con una precisión que los sistemas basados en reglas no pueden alcanzar. El cold start y la diversidad son los dos retos no resueltos del todo; los sistemas más robustos los abordan con enfoques híbridos que combinan colaborativo, contenido y señales contextuales.

¿Te ha resultado útil?
[Total: 13 · Media: 4.3]

Escrito por

CEO - Jacar Systems

Apasionado de la tecnología, la infraestructura cloud y la inteligencia artificial. Escribe sobre DevOps, IA, plataformas y software desde Madrid.