Tres años después de que RLHF se hiciera popular, el paisaje del alineamiento de modelos es más rico. Repaso de RLHF, DPO y los métodos más recientes como KTO o ORPO, con criterios para elegir.
Leer másEtiqueta: fine-tuning
LoRA y QLoRA: fine-tuning eficiente al alcance de un solo portátil
LoRA reduce fine-tune cost dramáticamente. QLoRA va aún más allá. Cómo, cuándo, y qué esperar en calidad.
Leer másFine-tuning de LLM: cuándo merece la pena entrenar el tuyo
Fine-tuning sigue siendo caro y operativamente complejo. Guía para decidir entre RAG, prompt engineering y entrenamiento propio.
Leer más