llama.cpp: Optimisations That Keep Surprising
llama.cpp es la base silenciosa del LLM local. 2024 trajo speculative decoding, RPC distribuido y backends de GPU renovados. Cuándo usarlo directo y cuándo dejar que Ollama lo envuelva.
Tag
llama.cpp es la base silenciosa del LLM local. 2024 trajo speculative decoding, RPC distribuido y backends de GPU renovados. Cuándo usarlo directo y cuándo dejar que Ollama lo envuelva.
Ollama consolidó como estándar para LLMs locales. Catálogo curado, API compatible con OpenAI, soporte multiplataforma y cuándo usarlo frente a vLLM.
LM Studio convierte cualquier portátil moderno en laboratorio de LLMs locales. Para quién es y cuándo supera a Ollama u OpenWebUI.
Con cuantización y llama.cpp se puede ejecutar Llama 2 7B/13B en un portátil moderno. Cómo funciona y qué calidad esperar realmente.