Por página Año

TensorRT-LLM: aceleración extrema en GPUs NVIDIA para LLM

TensorRT-LLM es el techo de rendimiento para inferencia LLM en NVIDIA. Complejo de desplegar pero 2-3x más rápido que vLLM en casos óptimos. Cuándo merece la complejidad.

68 11 min noviembre 4, 2024

Arquitectura

vLLM: servir LLM en producción con altísimo throughput

vLLM se ha convertido en la referencia para servir LLM en GPU. PagedAttention, batching continuo y API compatible con OpenAI. Cómo desplegarlo bien y cuándo compensa.

65 13 min octubre 5, 2024 4,5