LLM-as-judge maduro: cuándo confiar y cuándo no
Usar un LLM como juez de otro LLM se generalizó en 2024 y sigue siendo la única forma escalable de evaluar calidad cualitativa. La pregunta madura es cuándo fiarse de esos números.
Etiqueta
Usar un LLM como juez de otro LLM se generalizó en 2024 y sigue siendo la única forma escalable de evaluar calidad cualitativa. La pregunta madura es cuándo fiarse de esos números.
Después de año y medio llenando tableros con agentes en producción, la pregunta que separa equipos que envían fiable de los que van a ciegas sigue siendo la misma: ¿cómo mides que el agente está funcionando?
Medir la calidad de un sistema RAG es más sutil de lo que parece. Métricas, conjuntos dorados y los errores más comunes al evaluar.