vLLM se ha convertido en la referencia para servir LLM en GPU. PagedAttention, batching continuo y API compatible con OpenAI. Cómo desplegarlo bien y cuándo compensa.
Leer másEtiqueta: llm serving
SGLang: control fino sobre la ejecución de LLM
SGLang añade un DSL para controlar la generación de LLM con decoding restringido, branching y caché de prefijos. Cuándo supera a vLLM y por qué RadixAttention cambia la aritmética.
Leer másTGI de Hugging Face: servir modelos abiertos a escala
Text Generation Inference es la pila de servicio de Hugging Face para LLM. Cuándo tiene sentido, qué optimizaciones da gratis y sus límites reales.
Leer más