vLLM in 2025: the improvements that matter to LLM-serving teams

vLLM se ha consolidado como el motor de serving de LLM más adoptado en producción. Repaso de las mejoras recientes, qué cambia para quien lo opera y qué sigue siendo punto débil.

124 11 min February 14, 2025 4.5

Arquitectura

vLLM: Serving LLMs in Production with Very High Throughput

vLLM se ha convertido en la referencia para servir LLM en GPU. PagedAttention, batching continuo y API compatible con OpenAI. Cómo desplegarlo bien y cuándo compensa.

181 13 min October 5, 2024 4.5

Desarrollo de Software

SGLang: Fine Control Over LLM Execution

SGLang añade un DSL para controlar la generación de LLM con decoding restringido, branching y caché de prefijos. Cuándo supera a vLLM y por qué RadixAttention cambia la aritmética.

112 9 min June 10, 2024 4.5