SGLang añade un DSL para controlar la generación de LLM con decoding restringido, branching y caché de prefijos. Cuándo supera a vLLM y por qué RadixAttention cambia la aritmética.
Leer másPasión por la tecnología
SGLang añade un DSL para controlar la generación de LLM con decoding restringido, branching y caché de prefijos. Cuándo supera a vLLM y por qué RadixAttention cambia la aritmética.
Leer más