LLM-as-judge maduro: cuándo confiar y cuándo no
Actualizado: 2026-04-30
LLM-as-judge se convirtió en técnica estándar hacia finales de 2024 y sigue siendo, en 2026, la única forma escalable de evaluar calidad cualitativa en sistemas con LLM. La pregunta que distingue a equipos maduros no es si usarlo, sino cuándo fiarse del número que produce.
Puntos clave
- La rúbrica dimensional (6 dimensiones → nota 1-5 + justificación) produce más estabilidad que una nota global.
- La correlación juez-humano debe superar 0,7 en una muestra de 30 casos para considerar el juez utilizable.
- El juez falla sistemáticamente en criterios subjetivos sin rúbrica, comparación con ground truth exacto y autoevaluación del propio modelo.
- Calibración completa cada trimestre o al cambiar de modelo; check rápido de 5 casos ante cualquier anomalía.
- Si el criterio puede comprobarse con lógica determinista, no usar juez LLM.
Qué hace bien un juez LLM
Evaluación por rúbrica dimensional: coherencia, relevancia, formato, ausencia de información inventada, cumplimiento de estilo. Pedir al juez notas 1-5 en cada dimensión, con justificación de una frase, produce resultados que correlacionan razonablemente con humanos cuando está bien calibrado.
La clave es descomponer:
- Pedir una “nota global” produce inconsistencia alta entre runs.
- Pedir seis notas dimensionales y agregar después produce estabilidad.
Qué hace mal un juez LLM
Tres patrones donde falla consistentemente:
- Criterios subjetivos sin rúbrica: “¿es útil esta respuesta?” sin definir qué cuenta como útil produce ruido, no señal.
- Comparación con ground truth exacto: el juez acepta paráfrasis correctas pero también paráfrasis incorrectas que suenan similares.
- Evaluación cuando el juez es el mismo modelo que se evalúa: sobrevalora sistemáticamente su propia familia.
Calibración contra humanos
La verificación sin la que no se puede trabajar es calibrar el juez contra humanos en un subconjunto pequeño:
- Humanos puntúan 30 casos.
- El juez puntúa los mismos 30.
- La correlación entre ambos debe estar por encima de 0,7 para considerarlo utilizable.
- Debajo de 0,7: ajustar prompt del juez o cambiar modelo.
Frecuencia recomendada:
- Calibración completa cada trimestre, o al cambiar el modelo del juez.
- Check rápido (~5 casos) cada vez que se detecta un comportamiento raro en métricas.
Cuándo NO usar juez LLM
Cuando la verificación se puede automatizar con lógica determinista:
- Schema válido.
- URL resoluble.
- Tipo correcto.
- Valor dentro de rango esperado.
Usa esa lógica: más barata, más fiable, no requiere calibración. Juez LLM solo cuando el criterio es genuinamente cualitativo.
Conclusión
LLM-as-judge en 2026 es una técnica madura con límites conocidos. Usado con rúbrica dimensional, calibración periódica y como complemento (no sustituto) de métricas deterministas, produce señal útil para CI regression y detección de drift. Usado con confianza ciega, es un espejo que refleja los sesgos del juez sin que nadie se dé cuenta.