vLLM: Serving LLMs in Production with Very High Throughput
vLLM se ha convertido en la referencia para servir LLM en GPU. PagedAttention, batching continuo y API compatible con OpenAI. Cómo desplegarlo bien y cuándo compensa.
Category
Patterns, decisions, and trade-offs that define how production software gets built.
vLLM se ha convertido en la referencia para servir LLM en GPU. PagedAttention, batching continuo y API compatible con OpenAI. Cómo desplegarlo bien y cuándo compensa.
Tras dos años de RAG en producción, patrones claros emergen: chunking inteligente, hybrid search, re-ranking, evaluación continua. Qué evitar.
Kubecost da visibilidad de coste por namespace, deployment y label. OpenCost es su núcleo OSS. Cuándo compensa y cómo integrar en el workflow de K8s.
Litestream convierte SQLite en una base de datos con backup continuo a S3. Cómo funciona, setup típico y cuándo es mejor que Postgres para apps pequeñas.
Workers + KV + D1 + R2 + Durable Objects conforman un stack edge completo. Qué falta, qué ya funciona y cuándo compite con AWS.
Kubernetes 1.31 no trae fuegos artificiales, pero estabiliza AppArmor, convierte los sidecars en ciudadanos de primera clase y deja DRA a un paso del GA. Repaso desde la óptica de quien opera clústeres.
OpenTelemetry declaró estables las señales de logs en julio de 2024. La tercera pata de la observabilidad moderna por fin se une a métricas y trazas bajo un único protocolo y un modelo de datos común.
El debate sidecar-or-not se resolvió con dos opciones maduras: Istio Ambient y Cilium Mesh. Comparativa operativa y cuál encaja con tu equipo.
Redis cambió a licencia dual en marzo de 2024. Valkey nació como fork BSD respaldado por AWS, Google y la Linux Foundation. Qué implica para usuarios y proyectos.
cAdvisor fue el default histórico pero hoy no basta. Cómo combinar eBPF, Kubernetes metrics y APM para observabilidad real de containers.
PG17 llega con vacuum más eficiente, logical replication con failover y JSON_TABLE estándar. Qué features valen la pena probar en staging y cómo planificar el upgrade.
PostgreSQL 16 cerró las brechas históricas de la replicación lógica. Parallel apply, slots en standby y bidireccionalidad disciplinada la convierten en herramienta de primera línea para migraciones y CDC.