Evaluación continua de RAG: cuadros de mando que importan

Un sistema RAG sin evaluación continua se degrada en silencio. Los índices cambian, los modelos se actualizan, los usuarios preguntan cosas nuevas. Este es un repaso práctico de qué métricas vigilar y cómo montar el cuadro de mando que avisa antes del incidente.

9 de mayo de 2025 7 min 210 4,3

Inteligencia Artificial

Agentes de IA en empresa: de demo a valor medible

Los agentes de IA han pasado de ser un tema de laboratorio a tener SDKs serios en tres grandes proveedores. Reflexión sobre cómo pasar de la demo llamativa a un caso de uso interno que mueva una métrica real.

31 de marzo de 2025 7 min 226 4,4

Arquitectura

Aplicar RAG con grafos a un producto real

Desde que Microsoft abrió GraphRAG, el patrón de usar grafos sobre tus propios datos ha pasado de experimento académico a técnica con aplicaciones prácticas. Reflexión sobre cuándo compensa, cómo se monta y qué errores se repiten.

28 de marzo de 2025 7 min 224 4,7

Inteligencia Artificial

Claude 3.7 Sonnet: el paso intermedio hacia la familia 4

Anthropic publicó Claude 3.7 Sonnet a finales de febrero con pensamiento extendido opcional y un compañero de consola llamado Claude Code. Reflexión sobre qué cambia de verdad y qué queda para la próxima familia.

7 de marzo de 2025 7 min 192

Inteligencia Artificial

vLLM en 2025: las mejoras que importan a quien sirve LLM

vLLM se ha consolidado como el motor de serving de LLM más adoptado en producción. Repaso de las mejoras recientes, qué cambia para quien lo opera y qué sigue siendo punto débil.

14 de febrero de 2025 7 min 187 4,4

Arquitectura

GraphRAG de Microsoft en empresa: patrones que funcionan

GraphRAG lleva un año en uso empresarial real. Balance de qué tipos de preguntas resuelve mejor que el RAG clásico, qué cuesta operarlo y cuándo la complejidad extra compensa.

11 de febrero de 2025 7 min 177 4,4

Inteligencia Artificial

Evaluación de alineamiento: RLHF, DPO y alternativas recientes

Tres años después de que RLHF se hiciera popular, el paisaje del alineamiento de modelos es más rico. Repaso de RLHF, DPO y los métodos más recientes como KTO o ORPO, con criterios para elegir.

8 de febrero de 2025 7 min 366

Inteligencia Artificial

Gemma 2: el modelo abierto de Google un año después

Google publicó Gemma 2 a mediados de 2024 y ya lleva tiempo en uso real. Balance de cómo compite en el ecosistema de modelos abiertos, qué tamaños tienen sentido y dónde ha cuajado su adopción.

5 de febrero de 2025 6 min 195 4,2

Inteligencia Artificial

o3 en público: el salto en razonamiento se confirma

La serie o3 de OpenAI empieza a estar disponible y marca un cambio real en razonamiento complejo. Análisis de dónde brilla, dónde sigue fallando y qué cambia para quien construye productos con LLMs.

2 de febrero de 2025 6 min 197 4,4

Inteligencia Artificial

Gemini 2.0: herramientas integradas y modo agente

Google ha lanzado Gemini 2.0 con un énfasis claro en uso de herramientas y agentes. Repaso de qué aporta, dónde está por detrás de la competencia y en qué tipo de aplicaciones encaja mejor.

30 de enero de 2025 6 min 190 4,5

Inteligencia Artificial

NPU en el PC: IA local más rápida y barata

Los procesadores Copilot+ de Qualcomm, Intel y AMD han normalizado la presencia de una NPU en el PC doméstico. Qué cambia realmente para ejecutar modelos en local y cuándo merece la pena.

6 de enero de 2025 6 min 191 4,5

Inteligencia Artificial

LoRA y QLoRA: fine-tuning eficiente al alcance de un solo portátil

LoRA reduce el coste del fine-tuning de forma dramática. QLoRA va aún más allá combinando cuantización y adaptadores de bajo rango. Cómo funcionan, cuándo usarlos y qué calidad esperar.

29 de octubre de 2024 7 min 255 4,6

Inteligencia Artificial

Claude 3.5 Sonnet: el modelo que reescribió el equilibrio precio-calidad

Claude 3.5 Sonnet llegó en junio de 2024 y forzó a todos a repensar. Qué lo hace especial en coding y cómo compara con GPT-4o.

2 de octubre de 2024 6 min 429 4,6

Inteligencia Artificial

Mistral Large: el contendiente europeo frente a GPT-4

Mistral Large 2 cierra la brecha con GPT-4 y Claude desde Europa. Residencia EU, precios, y cuándo elegirlo frente a las alternativas.

29 de septiembre de 2024 6 min 201 4,7

Inteligencia Artificial

GPT-4 Turbo: contexto largo y costes más razonables

GPT-4 Turbo duplicó el contexto de GPT-4 y redujo el precio 3x. Dónde sigue siendo relevante frente a GPT-4o y cómo migrar sin sorpresas.

4 de julio de 2024 5 min 189 4,6

Desarrollo de Software

Decodificación restringida para salidas estructuradas en LLM

Outlines, Guidance e Instructor obligan al modelo a emitir JSON válido en el propio paso de generación. Cuándo ganan frente a reintentos y function calling.

26 de abril de 2024 7 min 303 4,7

Inteligencia Artificial

Mixtral 8x22B: mixture of experts abierto y potente

Mistral liberó Mixtral 8x22B por magnet link sin fanfarria. Qué aporta técnicamente, cómo se compara con 8x7B y GPT-4, y qué hardware necesita.

11 de abril de 2024 5 min 525

Inteligencia Artificial

Claude 2: la alternativa de Anthropic a GPT-4

Claude 2 ofrece contexto largo (100K tokens) y un enfoque distinto a la seguridad. Cómo se compara realmente con GPT-4 en uso práctico.

16 de noviembre de 2023 5 min 172 4,5

Desarrollo de Software

LangChain: el framework para orquestar aplicaciones con LLM

LangChain unifica la construcción de aplicaciones con LLM: prompts, retrievers, agentes y memoria. Cuándo ayuda y cuándo añade complejidad innecesaria.

29 de octubre de 2023 5 min 232 4,4

Desarrollo de Software

Function calling en OpenAI: estructurando salidas del modelo

Function calling convierte el LLM en un componente que devuelve datos estructurados. Cómo funciona, casos de uso reales y errores comunes.

20 de octubre de 2023 5 min 189 4,5

Inteligencia Artificial

GPT-4 en profundidad: capacidades reales frente a expectativas

Cinco meses después del lanzamiento de GPT-4, es momento de separar capacidades reales de hype. Dónde destaca y dónde sigue fallando.

6 de agosto de 2023 5 min 199 4,7

Inteligencia Artificial

Bard y PaLM 2: la apuesta de Google en IA generativa

Google lanzó Bard con PaLM 2 como respuesta directa a ChatGPT. Análisis de capacidades, comparativa con GPT-4 y estrategia de integración con su ecosistema.

16 de julio de 2023 5 min 275 4,5

Desarrollo de Software

Fine-tuning de LLM: cuándo merece la pena entrenar el tuyo

Fine-tuning sigue siendo caro y operativamente complejo. Guía para decidir entre RAG, prompt engineering y entrenamiento propio.

13 de julio de 2023 5 min 244 4,6

Herramientas

Cerebras-GPT: 7 Modelos LLM Open-Source listos para su uso

Cerebras-GPT libera 7 modelos de lenguaje open-source entrenados sobre hardware especializado. Qué los diferencia, dónde descargarlos y para qué son útiles.

30 de marzo de 2023 5 min 289