llama.cpp: optimizaciones que siguen sorprendiendo

llama.cpp es la base silenciosa del LLM local. 2024 trajo speculative decoding, RPC distribuido y backends de GPU renovados. Cuándo usarlo directo y cuándo dejar que Ollama lo envuelva.

136 12 min diciembre 1, 2024 4,5

Herramientas

Ollama en 2024: ejecutar LLM localmente sin dolor

Ollama consolidó como estándar para LLMs locales. Catálogo curado, API compatible con OpenAI, soporte multiplataforma y cuándo usarlo frente a vLLM.

109 12 min noviembre 28, 2024 4,2

Herramientas

LM Studio: explorar modelos de IA desde el escritorio

LM Studio convierte cualquier portátil moderno en laboratorio de LLMs locales. Para quién es y cuándo supera a Ollama u OpenWebUI.

112 7 min abril 8, 2024 4,6

Herramientas

Cuantización de modelos y llama.cpp en tu portátil

Con cuantización y llama.cpp se puede ejecutar Llama 2 7B/13B en un portátil moderno. Cómo funciona y qué calidad esperar realmente.

139 10 min noviembre 4, 2023 4,5