vLLM se ha consolidado como el motor de serving de LLM más adoptado en producción. Repaso de las mejoras recientes, qué cambia para quien lo opera y qué sigue siendo punto débil.
Leer másEtiqueta: gpu
TensorRT-LLM: aceleración en GPUs NVIDIA para LLM
TensorRT-LLM es el ceiling de rendimiento en GPUs NVIDIA. Compleja pero 2-3x faster que vLLM en casos óptimos.
Leer másvLLM: servir LLM en producción con altísimo throughput
vLLM se ha convertido en la referencia para servir LLM en GPU. PagedAttention, batching continuo y API compatible con OpenAI. Cómo desplegarlo bien y cuándo compensa.
Leer másZed: un editor moderno pensado para la colaboración
Zed es el editor de los creadores de Atom reescrito desde cero en Rust. Cuándo es una alternativa seria a VS Code y qué colaboración ofrece de verdad.
Leer másTGI de Hugging Face: servir modelos abiertos a escala
Text Generation Inference es la pila de servicio de Hugging Face para LLM. Cuándo tiene sentido, qué optimizaciones da gratis y sus límites reales.
Leer más