SRE with AI: dashboards that actually help

Los cuadros de mando con IA llevan un par de años prometiendo detección de anomalías mágica y causa raíz automática. La realidad es más modesta pero también más útil, si se sabe separar el ruido del valor real. Repaso honesto de qué funciona y qué no.

145 14 min February 3, 2026 4.3

Herramientas

Observability tools I would recommend in 2026

Tras una década de Prometheus, tres años de consolidación alrededor de OpenTelemetry y la madurez definitiva del stack abierto con Grafana, Loki y Tempo, recomendaciones concretas para equipos que arrancan o revisan su capa de observabilidad. Qué encaja, qué sobra y qué evitar.

170 10 min January 13, 2026 4.0

Metodologías

Alertmanager: Routing That Doesn’t Wake Your Team at 3am

Configurar Alertmanager mal es lo habitual. Patrones sensatos de routing, silencios, agrupación y rotaciones de guardia para evitar la fatiga de alertas.

114 14 min August 30, 2024 4.3

Arquitectura

Container Monitoring: Beyond cAdvisor

cAdvisor fue el default histórico pero hoy no basta. Cómo combinar eBPF, Kubernetes metrics y APM para observabilidad real de containers.

129 7 min May 29, 2024 4.7

Metodologías

Observability and SLOs: Error Budgets That Get Met

Los SLOs solo funcionan si el error budget se gestiona de verdad. Cómo definirlos sin ceremonia y usarlos para equilibrar velocidad y fiabilidad.

127 10 min February 29, 2024 4.6

Metodologías

Prometheus: Writing Alerts That Won’t Get Ignored

Guía práctica para escribir reglas de alerta en Prometheus que reflejen problemas reales: síntomas vs. causas, SLOs con burn rate multi-ventana y watchdog.

150 11 min July 1, 2023 4.0