Per page Year

llama.cpp: Optimisations That Keep Surprising

llama.cpp es la base silenciosa del LLM local. 2024 trajo speculative decoding, RPC distribuido y backends de GPU renovados. Cuándo usarlo directo y cuándo dejar que Ollama lo envuelva.

54 12 min December 1, 2024 4.5

Inteligencia Artificial

LoRA and QLoRA: Efficient Fine-Tuning on a Single Laptop

LoRA reduce el coste del fine-tuning de forma dramática. QLoRA va aún más allá combinando cuantización y adaptadores de bajo rango. Cómo funcionan, cuándo usarlos y qué calidad esperar.

66 13 min October 29, 2024 4.6