Kubernetes 1.35 GA: balance desde la operación

Kubernetes 1.35 GA consolida tres versiones de trabajo: sidecars nativos con ciclo de vida completo, DRA generalizada para FPGAs y NPUs, y un scheduler que reduce el desperdicio un 15-25 % en clusters heterogéneos. Balance desde la operación diaria: qué activar ya, qué vigilar antes de migrar y qué plan seguir si vienes de 1.30.

28 de abril de 2026 5 min 402 4,8

Herramientas

Herramientas DevOps con IA integrada que uso en mi flujo diario

Después de catorce meses probando herramientas DevOps con IA integrada en varios equipos, el stack que se queda es reducido: Claude Code, Cursor y Aider para código; PagerDuty AIOps, Datadog Bits AI y Grafana Assistant para triage de alertas; y OpenTofu con OPA para generar infraestructura acotada por reglas de política.

28 de abril de 2026 5 min 365 4,0

Inteligencia Artificial

Incidentes con agentes IA: runbooks de recuperación que funcionan

Los agentes de IA fallan en producción: lo que importa es cómo respondes en los primeros veinte minutos. Este runbook cubre clasificación de severidad, aislar antes de investigar, purgar memoria contaminada, comunicar sin inventar datos y convertir cada incidente en una prueba de regresión antes de darlo por cerrado.

28 de abril de 2026 5 min 295 4,7

Metodologías

SRE con IA: cuadros de mando que de verdad ayudan

Los cuadros de mando con IA llevan un par de años prometiendo detección de anomalías mágica y causa raíz automática. La realidad es más modesta pero también más útil, si se sabe separar el ruido del valor real. Repaso honesto de qué funciona y qué no.

3 de febrero de 2026 8 min 278 4,3

Metodologías

Site Reliability Workbook: patrones que seguimos usando

Han pasado siete años desde que Google publicó el Workbook, y buena parte del libro no ha envejecido. Repaso los patrones que de verdad aplicamos en equipos pequeños y los que resultaron ser cultura de campus.

5 de junio de 2025 7 min 253

Arquitectura

Kubernetes 1.32: lo que trae el primer salto de 2025

Kubernetes 1.32 Penelope se publicó en diciembre y lleva varios meses rodando en clusters. Es buen momento para mirar qué cambios han envejecido bien, cuáles han generado trabajo extra y qué aprendizajes llevarse al salto hacia 1.33.

18 de mayo de 2025 6 min 274 4,7

Arquitectura

Kubernetes 1.33: el sneak peek visto desde operaciones

La release 1.33 llega el 23 de abril con el nombre Octarine, y el sneak peek oficial de marzo ya deja ver las líneas fuertes: in-place pod resize pasa a beta con el gate activado por defecto, los sidecar containers alcanzan por fin GA, y llegan varias deprecaciones de seguridad y de la API de endpoints que conviene revisar antes del upgrade.

6 de abril de 2025 6 min 272 4,2

Metodologías

Chaos engineering en empresa: más allá del caos por el caos

Chaos engineering es la práctica de inyectar fallos reales en producción de forma controlada para verificar que el sistema responde como se espera. Requiere hipótesis previas, blast radius mínimo y observabilidad madura. Herramientas open-source como Litmus y Chaos Mesh permiten adoptar la disciplina sin coste comercial; el ROI llega en forma de incidentes evitados y equipos mejor preparados.

19 de julio de 2024 6 min 250

Metodologías

Observabilidad y SLOs: presupuestos de error que se cumplen

Los SLOs y error budgets solo funcionan cuando el budget informa decisiones reales. Un feature freeze que se dispara al agotarse el presupuesto, una velocidad de despliegue que se ajusta al consumo. Con dos o tres SLIs bien elegidos, una policy de freeze clara y herramientas como Prometheus con Sloth, un equipo consigue equilibrar velocidad y fiabilidad de forma sostenible.

29 de febrero de 2024 7 min 260 4,6

Metodologías

Post-mortems sin culpables: cómo mejorar de verdad

Los post-mortems blameless son fáciles de proclamar pero difíciles de ejecutar bien. Sin una cultura genuinamente sin culpas, un timeline factual, un análisis honesto de los factores contribuyentes y action items con responsable y plazo, el ejercicio degenera en un ritual vacío que no previene la repetición de incidentes.

8 de febrero de 2024 7 min 316 4,5

Metodologías

Aplicar el libro de SRE de Google sin ser Google

El libro de SRE de Google (2016) es lectura canónica, pero está escrito para miles de ingenieros y datacenters propios: aplicarlo literal en un equipo pequeño produce fricción. Cinco principios sí se trasladan (SLO, error budget, postmortem sin culpa, toil management, on-call humano); lo que no escala es la infraestructura y los roles dedicados de Google.

28 de julio de 2023 5 min 291

Tecnología

NIS2: lo que la nueva directiva europea cambia en ciberseguridad

La Directiva NIS2 amplía la ciberseguridad europea de 7 a 18 sectores, exige 10 medidas técnicas mínimas y notificación de incidentes en 24 horas, e impone sanciones de hasta 10 millones de euros o el 2% de la facturación global, con responsabilidad personal para los órganos directivos que incumplan.

10 de julio de 2023 5 min 270 4,3

Metodologías

Prometheus: cómo escribir alertas que no se ignoren

Para escribir alertas de Prometheus que no acaben ignoradas, alerta sobre síntomas observables por el cliente (latencia, error rate, saturación) en vez de causas internas como CPU o memoria, define SLOs con burn rate multi-ventana para dosificar la gravedad, añade una alerta watchdog que confirme que el sistema sigue vivo y revisa el ratio señal/ruido cada trimestre.

1 de julio de 2023 6 min 284 3,9

Arquitectura

Pixie: observabilidad nativa de Kubernetes con eBPF

Pixie usa eBPF para instrumentar automáticamente clústeres de Kubernetes sin modificar el código de la aplicación. Un agente por nodo captura tráfico HTTP, gRPC, SQL y Redis a nivel de kernel y expone en minutos mapa de servicios, perfiles de CPU y trazas SQL. Complementa a Prometheus para diagnóstico reactivo sin sidecars ni redeploys.

19 de junio de 2023 5 min 314