vLLM: servir LLM en producción con altísimo throughput

vLLM se ha convertido en la referencia para servir LLM en GPU. PagedAttention, batching continuo y API compatible con OpenAI. Cómo desplegarlo bien y cuándo compensa.

64 13 min octubre 5, 2024 4,5

Desarrollo de Software

SGLang: control fino sobre la ejecución de LLM

SGLang añade un DSL para controlar la generación de LLM con decoding restringido, branching y caché de prefijos. Cuándo supera a vLLM y por qué RadixAttention cambia la aritmética.

51 9 min junio 10, 2024 4,5

Inteligencia Artificial

TGI de Hugging Face: servir modelos abiertos a escala

Text Generation Inference es la pila de servicio de Hugging Face para LLM abiertos. Cuándo tiene sentido, qué optimizaciones aporta gratis y sus límites reales.

89 9 min enero 3, 2024 4,4