Artificial Intelligence
llama.cpp: Optimisations That Keep Surprising
llama.cpp es la base silenciosa del LLM local. 2024 trajo speculative decoding, RPC distribuido y backends de GPU renovados. Cuándo usarlo directo y cuándo dejar que Ollama lo envuelva.