TensorRT-LLM: Extreme Acceleration on NVIDIA GPUs for LLMs

TensorRT-LLM es el techo de rendimiento para inferencia LLM en NVIDIA. Complejo de desplegar pero 2-3x más rápido que vLLM en casos óptimos. Cuándo merece la complejidad.

November 4, 2024 5 min 178