llama.cpp: optimizaciones que siguen sorprendiendo

llama.cpp es la base silenciosa del LLM local. 2024 trajo speculative decoding, RPC distribuido y backends de GPU renovados. Cuándo usarlo directo y cuándo dejar que Ollama lo envuelva.

1 de diciembre de 2024 7 min 244 4,5

Herramientas

Ollama en 2024: ejecutar LLM localmente sin dolor

Ollama consolidó como estándar para LLMs locales. Catálogo curado, API compatible con OpenAI, soporte multiplataforma y cuándo usarlo frente a vLLM.

28 de noviembre de 2024 6 min 198 4,2