llama.cpp es la base silenciosa del LLM local. 2024 trajo speculative decoding, RPC distribuido y backends de GPU renovados. Cuándo usarlo directo y cuándo dejar que Ollama lo envuelva.
Leer másEtiqueta: llama.cpp
Ollama en 2024: ejecutar LLM localmente sin dolor
Ollama consolidó como standard para LLMs locales. Features 2024, models catalog, integración apps y cuándo usar vs vLLM.
Leer másCuantizacion de modelos y llama.cpp en tu portatil
Con cuantización y llama.cpp se puede ejecutar Llama 2 7B/13B en un portátil moderno. Cómo funciona y qué calidad esperar realmente.
Leer más