Mature LLM-as-judge: when to trust and when not
Using an LLM to judge another LLM became widespread in 2024 and remains the only scalable way to evaluate qualitative quality. The mature question is when to trust those numbers.
Tag
Using an LLM to judge another LLM became widespread in 2024 and remains the only scalable way to evaluate qualitative quality. The mature question is when to trust those numbers.
Tras una década de Prometheus, tres años de consolidación alrededor de OpenTelemetry y la madurez definitiva del stack abierto con Grafana, Loki y Tempo, recomendaciones concretas para equipos que arrancan o revisan su capa de observabilidad. Qué encaja, qué sobra y qué evitar.
Los agentes que encadenan llamadas a modelos, herramientas y memoria son difíciles de depurar sin una instrumentación pensada para ellos. Después de un año largo operando agentes en producción, repaso qué hay que medir primero, qué estándares están consolidándose y qué errores caros evita tener trazas bien hechas desde el inicio.
Las reglas del product-market fit han cambiado en la era de la IA. Baseline de calidad alto, moats distintos y nuevas métricas. Una guía pragmática para evaluar PMF en productos con LLM.
OpenTelemetry consolida las tres señales de observabilidad bajo un estándar único. Estado actual, integración y camino de adopción.
Las métricas útiles para startups son los datos que permiten evaluar el desempeño real de la empresa: métricas de rendimiento, KPIs y cómo usarlas para tomar decisiones.