Tecnología
Parca: perfilado continuo abierto basado en eBPF
Parca hace profiling de todo el cluster 24/7 con overhead mínimo. Cuándo tiene sentido y cómo interpretar flame graphs para debugging real.
Archivo
Parca hace profiling de todo el cluster 24/7 con overhead mínimo. Cuándo tiene sentido y cómo interpretar flame graphs para debugging real.
SGLang añade un DSL para controlar la generación de LLM con decoding restringido, branching y caché de prefijos. Cuándo supera a vLLM y por qué RadixAttention cambia la aritmética.