Categories

Artificial Intelligence

AI incident postmortems: what they have taught us

Una selección de postmortems publicados entre 2025 y 2026 por equipos que operan sistemas con IA en producción revela patrones repetidos: fallos en guardrails, deriva silenciosa de modelos, dependencia oculta del proveedor y una colección de sustos que vale la pena destilar.

Methodologies

SRE with AI: dashboards that actually help

Los cuadros de mando con IA llevan un par de años prometiendo detección de anomalías mágica y causa raíz automática. La realidad es más modesta pero también más útil, si se sabe separar el ruido del valor real. Repaso honesto de qué funciona y qué no.

Technology

Observability tools I would recommend in 2026

Tras una década de Prometheus, tres años de consolidación alrededor de OpenTelemetry y la madurez definitiva del stack abierto con Grafana, Loki y Tempo, recomendaciones concretas para equipos que arrancan o revisan su capa de observabilidad. Qué encaja, qué sobra y qué evitar.

Artificial Intelligence

AI agent observability: what to instrument first

Los agentes que encadenan llamadas a modelos, herramientas y memoria son difíciles de depurar sin una instrumentación pensada para ellos. Después de un año largo operando agentes en producción, repaso qué hay que medir primero, qué estándares están consolidándose y qué errores caros evita tener trazas bien hechas desde el inicio.

Methodologies

Continuous profiling with eBPF in production

El profiling continuo ha salido del terreno experimental y se ha vuelto una herramienta habitual en sistemas con tráfico real. Repaso qué aporta eBPF frente a instrumentación clásica, qué cuesta y cuándo compensa instalarlo.