Artificial Intelligence
TensorRT-LLM: Extreme Acceleration on NVIDIA GPUs for LLMs
TensorRT-LLM es el techo de rendimiento para inferencia LLM en NVIDIA. Complejo de desplegar pero 2-3x más rápido que vLLM en casos óptimos. Cuándo merece la complejidad.