Claude Sonnet 4.6 in production: the cost-quality balance

Sonnet 4.6 es el modelo por defecto de la mayoría de cargas de trabajo en 2026. Estos son los casos donde brilla, dónde no basta y por qué sigue siendo el sweet spot.

142 5 min April 28, 2026 4.3

Inteligencia Artificial

Mature LLM-as-judge: when to trust and when not

Using an LLM to judge another LLM became widespread in 2024 and remains the only scalable way to evaluate qualitative quality. The mature question is when to trust those numbers.

141 5 min April 28, 2026 4.7

Inteligencia Artificial

Production-grade agent evaluations: the framework that works

Después de año y medio llenando tableros con agentes en producción, la pregunta que separa equipos que envían fiable de los que van a ciegas sigue siendo la misma: ¿cómo mides que el agente está funcionando?

145 15 min April 22, 2026 4.3

Herramientas

AI-assisted code review: an honest adoption story

Dos años conviviendo con revisiones de código asistidas por IA en un equipo real. Qué ha cuajado, qué ha sido ruido y qué prácticas han sobrevivido cuando el entusiasmo inicial se asienta.

129 10 min January 18, 2025 4.4