SRE con IA: cuadros de mando que de verdad ayudan

Los cuadros de mando con IA llevan un par de años prometiendo detección de anomalías mágica y causa raíz automática. La realidad es más modesta pero también más útil, si se sabe separar el ruido del valor real. Repaso honesto de qué funciona y qué no.

3 de febrero de 2026 8 min 278 4,3

Herramientas

Herramientas de observabilidad que recomendaría en 2026

Tras una década de Prometheus, tres años de consolidación alrededor de OpenTelemetry y la madurez definitiva del stack abierto con Grafana, Loki y Tempo, recomendaciones concretas para equipos que arrancan o revisan su capa de observabilidad. Qué encaja, qué sobra y qué evitar.

13 de enero de 2026 7 min 355 4,0

Metodologías

Alertmanager: el árbol de routing que no despierta al equipo a las 3 de la mañana

Alertmanager mal configurado convierte cualquier incidente en ruido: un receptor único sin agrupar acaba con el canal de Slack ignorado en una semana. Este artículo repasa, con Alertmanager 0.27 y Prometheus 2.54, cómo diseñar el árbol de routing, las reglas de inhibición, los silencios y las rotaciones de guardia para frenar la fatiga de alertas sin perder incidentes reales.

30 de agosto de 2024 8 min 238 4,2

Arquitectura

Monitorización de contenedores: más allá de cAdvisor

cAdvisor sigue incluido en kubelet y cubre métricas de superficie, pero en un cluster Kubernetes de producción no basta. El stack mínimo moderno combina cAdvisor con kube-state-metrics, node-exporter, Prometheus y Grafana como base; eBPF para visibilidad profunda de red y syscalls; y OpenTelemetry para contexto de aplicación.

29 de mayo de 2024 5 min 252 4,6

Metodologías

Observabilidad y SLOs: presupuestos de error que se cumplen

Los SLOs y error budgets solo funcionan cuando el budget informa decisiones reales. Un feature freeze que se dispara al agotarse el presupuesto, una velocidad de despliegue que se ajusta al consumo. Con dos o tres SLIs bien elegidos, una policy de freeze clara y herramientas como Prometheus con Sloth, un equipo consigue equilibrar velocidad y fiabilidad de forma sostenible.

29 de febrero de 2024 7 min 260 4,6

Metodologías

Prometheus: cómo escribir alertas que no se ignoren

Para escribir alertas de Prometheus que no acaben ignoradas, alerta sobre síntomas observables por el cliente (latencia, error rate, saturación) en vez de causas internas como CPU o memoria, define SLOs con burn rate multi-ventana para dosificar la gravedad, añade una alerta watchdog que confirme que el sistema sigue vivo y revisa el ratio señal/ruido cada trimestre.

1 de julio de 2023 6 min 283 3,9