llama.cpp: optimizaciones que siguen sorprendiendo

llama.cpp es la biblioteca en C++ que impulsa a Ollama y gran parte del ecosistema de LLM locales. En 2024 sumó decodificación especulativa con aceleraciones de dos a tres veces, un servidor RPC para repartir capas entre máquinas y un formato GGUF estable. Ollama basta para el 90% de los casos; ir directo compensa con hardware poco común.

1 de diciembre de 2024 7 min 322 4,5

Herramientas

Ollama en 2024: ejecutar LLM localmente sin dolor

Ollama se consolidó en 2024 como el estándar para ejecutar LLMs en local. Empaqueta llama.cpp en un binario único con interfaz de línea de comandos estilo Docker y API compatible con OpenAI. Phi-3 Mini corre en 4 GB; Llama 3.1 8B Q4 necesita 6 GB. Para tráfico de producción a escala, vLLM sigue siendo la opción correcta.

28 de noviembre de 2024 6 min 271 4,2

Herramientas

Cuantización de modelos y llama.cpp en tu portátil

Con cuantización, los pesos de un modelo se guardan con menos bits (4, 5 u 8 en vez de 16), así que Llama 2 13B pasa de 26 GB a unos 7,5 GB. Con llama.cpp corre en un portátil normal de 16 GB de RAM sin GPU dedicada, y la pérdida de calidad es menor de lo que la intuición sugiere.

4 de noviembre de 2023 6 min 318 4,5