vLLM: Serving LLMs in Production with Very High Throughput
vLLM se ha convertido en la referencia para servir LLM en GPU. PagedAttention, batching continuo y API compatible con OpenAI. Cómo desplegarlo bien y cuándo compensa.
Category
Pragmatic software architecture: decisions, trade-offs and patterns that scale.
vLLM se ha convertido en la referencia para servir LLM en GPU. PagedAttention, batching continuo y API compatible con OpenAI. Cómo desplegarlo bien y cuándo compensa.
Tras dos años de RAG en producción, patrones claros emergen: chunking inteligente, hybrid search, re-ranking, evaluación continua. Qué evitar.
Kubecost da visibilidad de coste por namespace, deployment y label. OpenCost es su núcleo OSS. Cuándo compensa y cómo integrar en el workflow de K8s.
Litestream convierte SQLite en una base de datos con backup continuo a S3. Cómo funciona, setup típico y cuándo es mejor que Postgres para apps pequeñas.
Workers + KV + D1 + R2 + Durable Objects conforman un stack edge completo. Qué falta, qué ya funciona y cuándo compite con AWS.
Kubernetes 1.31 no trae fuegos artificiales, pero estabiliza AppArmor, convierte los sidecars en ciudadanos de primera clase y deja DRA a un paso del GA. Repaso desde la óptica de quien opera clústeres.
OpenTelemetry declaró estables las señales de logs en julio de 2024. La tercera pata de la observabilidad moderna por fin se une a métricas y trazas bajo un único protocolo y un modelo de datos común.
El debate sidecar-or-not se resolvió con dos opciones maduras: Istio Ambient y Cilium Mesh. Comparativa operativa y cuál encaja con tu equipo.
Redis cambió a licencia dual en marzo de 2024. Valkey nació como fork BSD respaldado por AWS, Google y la Linux Foundation. Qué implica para usuarios y proyectos.
cAdvisor fue el default histórico pero hoy no basta. Cómo combinar eBPF, Kubernetes metrics y APM para observabilidad real de containers.
PG17 llega con vacuum más eficiente, logical replication con failover y JSON_TABLE estándar. Qué features valen la pena probar en staging y cómo planificar el upgrade.
PostgreSQL 16 cerró las brechas históricas de la replicación lógica. Parallel apply, slots en standby y bidireccionalidad disciplinada la convierten en herramienta de primera línea para migraciones y CDC.
Llevar SCADA a contenedores gana flexibilidad pero abre nuevos vectores de riesgo. Qué funciona, qué no, y cómo gobernar la transición.
Cilium ofrece service mesh sin sidecars gracias a eBPF. Cuándo supera a Linkerd/Istio y cuándo su enfoque novedoso tiene límites.
SQLite en servidores es más viable de lo que crees. WAL, Litestream, LiteFS y patrones que hacen posible escalarla hasta donde muchos Postgres no llegan.
Linkerd apuesta por simplicidad y rendimiento antes que por catálogo de features. Dónde supera a Istio, qué cuesta operarlo y cuándo un service mesh compensa la complejidad.
Instalación reproducible de PostgreSQL 16 con pgvector en Debian o Ubuntu, con decisión razonada entre IVFFlat y HNSW y configuración lista para producción.
Internal Developer Platform es un término con tres grandes opciones. Cuál encaja mejor según el tamaño del equipo y la cultura de plataforma de tu organización.
pgvector maduró en 2023-2024 con HNSW y construcción paralela. Cuándo PostgreSQL basta para RAG, cómo indexar bien y dónde empieza a sufrir.
SQLite y DuckDB comparten el modelo embedded pero resuelven problemas distintos. OLTP vs OLAP explicados con criterios prácticos para elegir y cuándo usarlas juntas.
ArgoCD ha consolidado GitOps como la práctica deploy estándar en Kubernetes. Cómo aprovecharlo bien y qué errores evitar en producción.
Un service mesh ofrece mTLS, observabilidad y gestión de tráfico transversales. Comparativa entre Istio, Linkerd y Cilium para casos reales.
containerd ejecuta los contenedores de la mayoría de clusters Kubernetes modernos, y casi nadie lo nota. Una lectura técnica de su arquitectura, su relación con Docker y qué cambia tras retirar el dockershim.
La arquitectura orientada a eventos desacopla servicios y mejora resiliencia. Cuándo aporta valor real, qué patrones funcionan y qué nuevos problemas trae.
Backstage es la base open-source de muchos Internal Developer Platforms. Cómo funciona, qué cuesta adoptarlo y cuándo no merece la pena.
eBPF permite ejecutar código seguro dentro del kernel para tracing, networking y seguridad. Por qué es la base de las herramientas modernas de observabilidad.
Las bases vectoriales han pasado de ser experimentales a base de productos LLM. Comparativa pragmática entre las tres opciones más usadas en 2023.
PostgreSQL 16 trae replicación lógica desde standby, mejor paralelismo y observabilidad. Las novedades que realmente importan en producción.
pgvector convierte PostgreSQL en una base vectorial competente. Por qué la búsqueda semántica necesita índices especializados y cuándo basta con extender Postgres.
Chroma es la opción más simple para empezar con embeddings y búsqueda semántica. Cuándo brilla, cuándo se queda corta y cómo desplegarla.
Los micro-frontends prometen autonomía de equipo en la UI. Cuándo merece la pena dividir el frontend, qué patrones funcionan y qué cuesta caro.
Platform engineering formaliza el producto interno que los desarrolladores necesitan. Qué es un IDP, qué resuelve y cómo empezar.
Cache-aside, write-through, write-back, TTL bien diseñado. Patrones de caching con Redis que evitan problemas sutiles en producción.
K8s 1.27 estabiliza SeccompDefault, remueve funcionalidades deprecadas y mejora el scheduler. Qué atender al actualizar.
Apache Kafka consolida su papel como backbone de eventos en arquitecturas empresariales. Estado actual, alternativas y patrones maduros.
OpenTelemetry consolida las tres señales de observabilidad bajo un estándar único. Estado actual, integración y camino de adopción.
Vault centraliza secretos con rotación, auditoría y políticas granulares. Guía práctica para equipos que pasan de .env a gestión seria.
Cilium reemplaza iptables con programas eBPF en el kernel, cambiando radicalmente el rendimiento y capacidades de la red en Kubernetes.
Kafka se lleva los titulares, pero RabbitMQ sigue siendo la mejor elección para muchos flujos de mensajería. Guía de decisión práctica.
K8s 1.28 introduce sidecars nativos en alpha. Qué cambia, cómo afecta a service mesh y observabilidad, y cómo prepararse para su GA.
Pixie usa eBPF para instrumentar automáticamente clústeres de Kubernetes sin cambiar el código. Guía práctica y comparativa con Prometheus + Grafana.
Migrar de monolito a microservicios no es solo un cambio técnico: es una decisión organizativa con retos claros en interfaces, orquestación y cultura DevOps.
Arquitectura modular o microservicios: cómo elegir la estructura correcta para tu proyecto según tamaño, equipo y requisitos de escalabilidad.