Por página Año

llama.cpp: optimizaciones que siguen sorprendiendo

llama.cpp es la base silenciosa del LLM local. 2024 trajo speculative decoding, RPC distribuido y backends de GPU renovados. Cuándo usarlo directo y cuándo dejar que Ollama lo envuelva.

54 12 min diciembre 1, 2024 4,5

Inteligencia Artificial

LoRA y QLoRA: fine-tuning eficiente al alcance de un solo portátil

LoRA reduce el coste del fine-tuning de forma dramática. QLoRA va aún más allá combinando cuantización y adaptadores de bajo rango. Cómo funcionan, cuándo usarlos y qué calidad esperar.

66 13 min octubre 29, 2024 4,6