La investigación con usuarios siempre ha sido una de las disciplinas más caras de los equipos de producto. Reclutar participantes, conducir entrevistas, transcribir, analizar y sintetizar lleva semanas. Desde 2023 la IA generativa ha empezado a prometer acortar cada una de esas fases, y en 2025 ya tenemos suficiente recorrido para ver qué partes cumplen y cuáles no. La respuesta no es simétrica: hay pasos donde la IA es una mejora clara y otros donde introduce un riesgo sutil de perder contacto con el usuario real.
Qué hace bien la IA en este campo
La transcripción automática de entrevistas es probablemente la aplicación más madura y menos discutida. Herramientas como Whisper de OpenAI, Deepgram o servicios integrados en Zoom producen transcripciones con precisión suficiente para análisis, incluyendo marcas de tiempo y separación de hablantes. Lo que antes costaba una hora por cada hora de entrevista ahora cuesta unos minutos de revisión. Este ahorro es neto: no se pierde nada en el camino.
La síntesis de notas de campo también ha mejorado mucho. Modelos como Claude 3.5 o GPT-4o pueden resumir transcripciones, agrupar citas por tema y destacar contradicciones entre participantes. El investigador sigue validando y refinando, pero el primer paso del análisis cualitativo, que antes era tedioso, ahora se hace en minutos. Esto libera tiempo para la parte realmente difícil: interpretar qué significan los patrones encontrados.
Por último, la IA es útil en la preparación. Generar guías de entrevista a partir de objetivos de investigación, proponer variantes de preguntas, detectar sesgos en el fraseo y traducir materiales a varios idiomas son tareas donde los modelos actuales rinden bien. La herramienta no sustituye al criterio del investigador, pero acelera el borrador inicial.
Donde la IA falla o engaña
El área más peligrosa es la generación de personas sintéticas. Varias herramientas prometen crear usuarios simulados con los que puedes conversar para “entender” un segmento sin entrevistar a gente real. La tentación es obvia: cero coste, respuesta instantánea, disponibilidad veinticuatro siete. El problema es que lo que obtienes no es una persona, es el promedio estadístico del corpus de entrenamiento filtrado por el prompt. Una persona sintética de “madre trabajadora de 35 años en Madrid” produce respuestas plausibles, pero sin ninguna de las contradicciones, sorpresas o intuiciones que hacen útil una entrevista real.
He visto equipos tomar decisiones de producto basadas en conversaciones con personas sintéticas y luego descubrir que los usuarios reales pensaban algo completamente distinto. El modelo no sabe lo que no está en internet: los matices culturales locales, los hábitos familiares, las frustraciones concretas con interfaces específicas. Usar personas sintéticas como sustituto de investigación real es un atajo que parece ahorrar dinero y termina costándolo multiplicado.
Otra área con problemas es el análisis automático de entrevistas en bruto. Los modelos pueden resumir, pero también inventan citas o atribuyen afirmaciones al participante equivocado cuando el contexto es largo. Cuando el análisis alimenta decisiones importantes, cada cita que vaya a un documento final debe estar verificada contra la transcripción original. La IA es buena primera pasada; es mala fuente única de verdad.
El riesgo de la eficiencia mal entendida
Hay una tendencia en equipos que adoptan IA para investigación: reducir el número de participantes reales porque “la IA ya llena los huecos”. Este razonamiento es falaz por una razón estadística concreta. El valor de una entrevista no está en el dato promedio que aporta, sino en la posibilidad de sorpresa. Cada entrevista adicional tiene alguna probabilidad de producir un hallazgo que cambia la hipótesis. Reducir a la mitad las entrevistas no solo reduce la cantidad de datos, reduce a la mitad la probabilidad de descubrir lo que no sabías que no sabías.
La IA puede interpolar entre datos que ya tienes, pero no puede extrapolar fuera de ellos. Si tu investigación inicial tenía un sesgo de muestreo, el modelo lo amplificará. Si la muestra era demasiado pequeña para captar un segmento minoritario pero crítico, la IA no te avisará de la omisión. Estos son puntos ciegos que sólo se detectan con contacto directo con usuarios reales.
Formato híbrido que funciona
El flujo de trabajo que he visto rendir mejor combina las dos capas. Las entrevistas siguen siendo reales y lo suficientemente numerosas para capturar variabilidad, típicamente entre diez y veinticinco dependiendo del objetivo. La transcripción, codificación inicial y búsqueda de patrones usan IA. La interpretación, la priorización y la toma de decisiones siguen en humanos. Este reparto aprovecha lo que cada uno hace mejor sin caer en la ilusión de sustituir lo costoso.
En este formato, la IA también ayuda en fases posteriores. Responder a “¿qué dijeron los participantes sobre X?” con búsqueda semántica sobre las transcripciones es rápido y fiable. Generar informes iniciales con citas representativas también funciona bien. Incluso traducir hallazgos a varios idiomas o adaptarlos a distintas audiencias internas, desde ingeniería hasta ejecutivos, es una tarea donde los modelos actuales rinden.
Lo importante es mantener la disciplina: cada cita en un entregable final está verificada, cada afirmación sobre patrones está respaldada por evidencia concreta, cada extrapolación declara su margen de incertidumbre. La IA acelera, no autoriza a saltarse estos pasos.
Mi lectura
Dos años después de ChatGPT, la IA ha llegado a la investigación con usuarios igual que a todas partes: transformando lo tedioso en rápido sin cambiar lo fundamentalmente difícil. Transcribir ya no es un problema. Resumir ya no es un problema. Interpretar qué quieren los usuarios y por qué sigue siendo igual de difícil que antes, porque el usuario sigue siendo humano y las pistas siguen estando en sus contradicciones, no en sus promedios.
Los equipos que ajustan sus procesos conservando el contacto real con el usuario ganan velocidad sin perder calidad. Los que usan IA como excusa para hablar menos con gente terminan con productos que tienen sentido en el papel y fallan en manos reales. En última instancia, la pregunta de cuánto automatizar no es técnica sino de método: ¿qué parte del trabajo es aprendizaje y qué parte es fricción? La IA se come la fricción, no debería tocar el aprendizaje.
Para equipos de producto, la recomendación práctica es simple. Adoptar IA para transcripción y primera pasada de síntesis sin reservas. Adoptarla para preparación de guías y materiales con revisión. Rechazarla como sustituto de participantes reales. Medir su ayuda en tiempo ahorrado, no en entrevistas eliminadas. Y sobre todo, no dejar que la rapidez con que un modelo produce una respuesta nos haga olvidar que las mejores ideas de producto siguen saliendo de hablar con la persona que usa el producto.