vLLM se ha consolidado como el motor de serving de LLM más adoptado en producción. Repaso de las mejoras recientes, qué cambia para quien lo opera y qué sigue siendo punto débil.
Leer másEtiqueta: inferencia
ONNX Runtime en el edge: inferencia portable y rápida
ONNX Runtime sirve modelos ML en casi cualquier plataforma sin duplicar tooling. Cómo usarlo en edge, móvil y browser con el mismo binario.
Leer másTGI de Hugging Face: servir modelos abiertos a escala
Text Generation Inference es la pila de servicio de Hugging Face para LLM. Cuándo tiene sentido, qué optimizaciones da gratis y sus límites reales.
Leer más