TensorRT-LLM es el ceiling de rendimiento en GPUs NVIDIA. Compleja pero 2-3x faster que vLLM en casos óptimos.
Leer másEtiqueta: inference
vLLM: servir LLM en producción con altísimo throughput
vLLM se ha convertido en la referencia para servir LLM en GPU. PagedAttention, batching continuo y API compatible con OpenAI. Cómo desplegarlo bien y cuándo compensa.
Leer más