o1-preview: el modelo de OpenAI que piensa antes de responder

OpenAI presentó o1 en septiembre de 2024. Un modelo que razona internamente antes de contestar. Qué cambia y cuándo merece la pena el coste adicional.

118 10 min diciembre 19, 2024 4,5

Arquitectura

Búsqueda híbrida: combinar BM25 y vectores en serio

El vector puro y la palabra clave pura dejan huecos distintos. La búsqueda híbrida los cubre fusionando BM25 y embeddings con RRF.

142 12 min diciembre 7, 2024

Inteligencia Artificial

llama.cpp: optimizaciones que siguen sorprendiendo

llama.cpp es la base silenciosa del LLM local. 2024 trajo speculative decoding, RPC distribuido y backends de GPU renovados. Cuándo usarlo directo y cuándo dejar que Ollama lo envuelva.

134 12 min diciembre 1, 2024 4,5

Herramientas

Ollama en 2024: ejecutar LLM localmente sin dolor

Ollama consolidó como estándar para LLMs locales. Catálogo curado, API compatible con OpenAI, soporte multiplataforma y cuándo usarlo frente a vLLM.

108 12 min noviembre 28, 2024 4,2

Arquitectura

Model Context Protocol: la propuesta abierta de Anthropic

Anthropic presenta MCP, un estándar abierto para conectar modelos de lenguaje con datos y herramientas. Qué resuelve, cómo se diferencia del function calling y por qué puede convertirse en el LSP de los agentes.

132 13 min noviembre 25, 2024 4,6

Inteligencia Artificial

Product-market fit en la era de la IA: lo que cambia

Las reglas del product-market fit han cambiado en la era de la IA. Baseline de calidad alto, moats distintos y nuevas métricas. Una guía pragmática para evaluar PMF en productos con LLM.

134 14 min noviembre 22, 2024 4,2

Inteligencia Artificial

Observabilidad de LLM: trazas, costes y calidad

Las aplicaciones LLM necesitan observabilidad específica: trazas de prompt/respuesta, costes de tokens y métricas de calidad. Herramientas y patrones para 2024.

129 13 min noviembre 10, 2024

Inteligencia Artificial

TensorRT-LLM: aceleración extrema en GPUs NVIDIA para LLM

TensorRT-LLM es el techo de rendimiento para inferencia LLM en NVIDIA. Complejo de desplegar pero 2-3x más rápido que vLLM en casos óptimos. Cuándo merece la complejidad.

111 11 min noviembre 4, 2024

Inteligencia Artificial

LoRA y QLoRA: fine-tuning eficiente al alcance de un solo portátil

LoRA reduce el coste del fine-tuning de forma dramática. QLoRA va aún más allá combinando cuantización y adaptadores de bajo rango. Cómo funcionan, cuándo usarlos y qué calidad esperar.

150 13 min octubre 29, 2024 4,6

Inteligencia Artificial

Computer Use de Claude: cuando el agente mueve el ratón

Anthropic lanzó Computer Use en octubre de 2024: Claude controla el escritorio. Qué funciona, qué no, y las implicaciones reales para automatización.

615 12 min octubre 23, 2024 4,4

Desarrollo de Software

GitHub Copilot Workspace: la IDE conversacional de GitHub

Copilot Workspace propone un desarrollo orientado a tareas: describe el problema, la IA planifica e implementa. Cómo compara con Cursor Composer y dónde encaja en el flujo de trabajo real.

126 11 min octubre 20, 2024 4,4

Inteligencia Artificial

Swarm: el experimento de OpenAI para agentes multi-rol

OpenAI publicó Swarm como framework experimental y educativo para sistemas multi-agente. Patrones que emergen y comparación con CrewAI y LangGraph.

118 11 min octubre 14, 2024 4,3