Observabilidad de agentes de IA: qué instrumentar primero

Los agentes que encadenan llamadas a modelos, herramientas y memoria son difíciles de depurar sin una instrumentación pensada para ellos. Después de un año largo operando agentes en producción, repaso qué hay que medir primero, qué estándares están consolidándose y qué errores caros evita tener trazas bien hechas desde el inicio.

139 12 min diciembre 8, 2025

Arquitectura

Cachés para LLM: ahorrar tokens sin tirar la calidad

Un proxy con caché delante de un modelo de lenguaje puede reducir la factura de tokens de forma significativa, pero introduce riesgos sutiles si el diseño no es cuidadoso. Qué tipos de caché funcionan en producción, dónde están las trampas habituales y cómo integrarlos sin degradar la experiencia.

125 10 min noviembre 29, 2025

Arquitectura

Enrutadores de inferencia: elegir modelo según la petición

Un enrutador de inferencia decide qué modelo atiende cada petición en función de coste, latencia y complejidad. Bien diseñados reducen la factura de tokens sin que el usuario perciba degradación; mal diseñados introducen fallos sutiles difíciles de depurar.

127 11 min noviembre 26, 2025 4,1

Inteligencia Artificial

Testing con IA: el problema del determinismo

Probar sistemas que incluyen modelos de lenguaje rompe la primera regla del testing: la misma entrada da la misma salida. Analizo las estrategias que han funcionado tras un año largo integrando IA en productos reales, por qué los tests deterministas tradicionales no bastan y cómo plantear un cinturón de pruebas que capture regresiones sin bloquearse en la varianza.

120 11 min noviembre 11, 2025

Arquitectura

Agent OS: el concepto que está moldeando la nueva capa

El término Agent OS lleva un año ganando tracción entre investigación y producto. Describe una capa que va más allá de una biblioteca de agentes: planificador, gestión de contexto, memoria persistente y aislamiento. Una lectura del estado real de ese concepto.

175 11 min octubre 12, 2025 4,5

Arquitectura

Model Context Protocol en 2025: del anuncio al ecosistema

Model Context Protocol cumple diez meses desde su anuncio de Anthropic y ya no es una propuesta: hay cientos de servidores, implementaciones cruzadas entre proveedores y un registro público. Repaso de qué ha funcionado, qué sigue flojo y por qué 2025 marca el paso de curiosidad a infraestructura básica.

167 14 min septiembre 21, 2025 4,4

Inteligencia Artificial

GPT-5: disponibilidad pública y primeras impresiones

Tras meses de rumores, OpenAI publicó GPT-5 a principios de agosto. Las primeras semanas de uso real dejan una imagen menos espectacular que el marketing y más útil que lo que muchos esperaban. Vale la pena separar lo nuevo de lo incremental.

117 10 min agosto 28, 2025 4,4

Industria 4.0

SLM en el edge industrial: cuando el modelo pequeño es mejor

Los modelos pequeños de lenguaje se han vuelto útiles de verdad. Phi-3.5, Gemma 2 o Llama 3.2 caben en dispositivos modestos y resuelven tareas acotadas sin salir a la nube. Repaso de dónde encajan en planta y cuándo compensa saltarse el modelo grande.

123 13 min agosto 1, 2025 4,2

Inteligencia Artificial

RAG 2.0: grafos de conocimiento, vectores e híbrido

El RAG de 2023 era búsqueda vectorial con un LLM detrás. El de 2025 es un sistema híbrido que combina vectores, búsqueda léxica y grafos de conocimiento. Qué ha cambiado, dónde funciona cada pieza y qué decisiones marcan la diferencia entre un RAG útil y uno decepcionante.

184 14 min julio 17, 2025 4,2

Inteligencia Artificial

Gemini 2.5: escalado de contexto y multimodalidad

Google publicó Gemini 2.5 Pro en vista previa en marzo y la versión general llegó en junio. El salto respecto a Gemini 2.0 no está solo en puntuaciones sino en dos frentes prácticos: ventana de contexto utilizable en serio y multimodalidad que deja de ser demostración para convertirse en herramienta.

147 13 min junio 29, 2025 4,3

Inteligencia Artificial

Familia Claude 4 inicial: primeras pruebas de calidad

Anthropic presentó Claude Opus 4 y Claude Sonnet 4 el 22 de mayo de 2025, el primer salto grande de nomenclatura desde la serie 3.5. Un mes de uso real en código, documentación técnica y agentes para separar lo que ha mejorado de lo que sigue igual.

124 10 min junio 23, 2025 4,3

Inteligencia Artificial

La era del grafo de conocimiento renace con los LLM

Durante una década los grafos de conocimiento fueron una idea académica con pocos casos vivos. Los LLM han cambiado esa ecuación: ahora sirven para anclar respuestas, auditar razonamiento y sostener agentes sin alucinar.

121 11 min mayo 21, 2025 4,6