llama.cpp es la base silenciosa del LLM local. 2024 trajo speculative decoding, RPC distribuido y backends de GPU renovados. Cuándo usarlo directo y cuándo dejar que Ollama lo envuelva.
Leer másEtiqueta: quantization
LoRA y QLoRA: fine-tuning eficiente al alcance de un solo portátil
LoRA reduce fine-tune cost dramáticamente. QLoRA va aún más allá. Cómo, cuándo, y qué esperar en calidad.
Leer más