Name: Jacar Systems
Address: Madrid, Madrid, ES

vLLM: servir LLM en producción con altísimo throughput

vLLM se ha convertido en la referencia para servir LLM en GPU. PagedAttention, batching continuo y API compatible con OpenAI. Cómo desplegarlo bien y cuándo compensa.

65 13 min octubre 5, 2024 4,5