Next-generation NPUs: the hardware moving AI in 2026

Las NPU dejaron de ser un accesorio para convertirse en el componente que define rendimiento real en portátiles, teléfonos y servidores pequeños. Repaso práctico del hardware que domina 2026, qué cargas compensan y dónde sigue ganando la GPU tradicional.

LLM caches: saving tokens without dropping quality

Un proxy con caché delante de un modelo de lenguaje puede reducir la factura de tokens de forma significativa, pero introduce riesgos sutiles si el diseño no es cuidadoso. Qué tipos de caché funcionan en producción, dónde están las trampas habituales y cómo integrarlos sin degradar la experiencia.

Microsoft Garnet: a high-performance cache alternative

Garnet es el servidor de caché abierto por Microsoft Research que habla el protocolo de Redis pero está escrito en .NET 8 con un núcleo de almacenamiento orientado a hardware moderno. Tras casi dos años en público, muestra números interesantes y una arquitectura que merece mirarse con calma, aunque el ecosistema Redis siga siendo más maduro.

Dragonfly: the modern cache inspired by Redis

Dragonfly lleva tres años como alternativa compatible con Redis, pero con arquitectura multihilo y sin fork para persistencia. En 2025 ya no es una curiosidad: hay despliegues serios que lo eligen por coste y latencia. Repaso de qué cambia y cuándo compensa mirarlo con calma.

Continuous profiling with eBPF in production

El profiling continuo ha salido del terreno experimental y se ha vuelto una herramienta habitual en sistemas con tráfico real. Repaso qué aporta eBPF frente a instrumentación clásica, qué cuesta y cuándo compensa instalarlo.

PostgreSQL 17: optimisations that change real queries

PostgreSQL 17 llegó en septiembre con mejoras silenciosas del planificador. Seis meses en producción confirman que los escaneos SAOP, el streaming I/O y los anti-joins han cambiado planes de consulta reales sin tocar una línea de SQL.