Inteligencia Artificial
llama.cpp: optimizaciones que siguen sorprendiendo
llama.cpp es la base silenciosa del LLM local. 2024 trajo speculative decoding, RPC distribuido y backends de GPU renovados. Cuándo usarlo directo y cuándo dejar que Ollama lo envuelva.