AI agent observability: what to instrument first

Los agentes que encadenan llamadas a modelos, herramientas y memoria son difíciles de depurar sin una instrumentación pensada para ellos. Después de un año largo operando agentes en producción, repaso qué hay que medir primero, qué estándares están consolidándose y qué errores caros evita tener trazas bien hechas desde el inicio.

139 12 min December 8, 2025

Arquitectura

LLM caches: saving tokens without dropping quality

Un proxy con caché delante de un modelo de lenguaje puede reducir la factura de tokens de forma significativa, pero introduce riesgos sutiles si el diseño no es cuidadoso. Qué tipos de caché funcionan en producción, dónde están las trampas habituales y cómo integrarlos sin degradar la experiencia.

125 10 min November 29, 2025

Arquitectura

Inference routers: choosing a model based on the request

Un enrutador de inferencia decide qué modelo atiende cada petición en función de coste, latencia y complejidad. Bien diseñados reducen la factura de tokens sin que el usuario perciba degradación; mal diseñados introducen fallos sutiles difíciles de depurar.

127 11 min November 26, 2025 4.1

Inteligencia Artificial

Testing with AI: the determinism problem

Probar sistemas que incluyen modelos de lenguaje rompe la primera regla del testing: la misma entrada da la misma salida. Analizo las estrategias que han funcionado tras un año largo integrando IA en productos reales, por qué los tests deterministas tradicionales no bastan y cómo plantear un cinturón de pruebas que capture regresiones sin bloquearse en la varianza.

119 11 min November 11, 2025

Arquitectura

Agent OS: the concept shaping the new stack layer

El término Agent OS lleva un año ganando tracción entre investigación y producto. Describe una capa que va más allá de una biblioteca de agentes: planificador, gestión de contexto, memoria persistente y aislamiento. Una lectura del estado real de ese concepto.

175 11 min October 12, 2025 4.5

Arquitectura

Model Context Protocol in 2025: from announcement to ecosystem

Model Context Protocol cumple diez meses desde su anuncio de Anthropic y ya no es una propuesta: hay cientos de servidores, implementaciones cruzadas entre proveedores y un registro público. Repaso de qué ha funcionado, qué sigue flojo y por qué 2025 marca el paso de curiosidad a infraestructura básica.

166 14 min September 21, 2025 4.4

Inteligencia Artificial

GPT-5: public availability and early impressions

Tras meses de rumores, OpenAI publicó GPT-5 a principios de agosto. Las primeras semanas de uso real dejan una imagen menos espectacular que el marketing y más útil que lo que muchos esperaban. Vale la pena separar lo nuevo de lo incremental.

115 10 min August 28, 2025 4.4

Industria 4.0

SLMs at the industrial edge: when the small model is better

Los modelos pequeños de lenguaje se han vuelto útiles de verdad. Phi-3.5, Gemma 2 o Llama 3.2 caben en dispositivos modestos y resuelven tareas acotadas sin salir a la nube. Repaso de dónde encajan en planta y cuándo compensa saltarse el modelo grande.

122 13 min August 1, 2025 4.2

Inteligencia Artificial

RAG 2.0: knowledge graphs, vectors, and hybrid

El RAG de 2023 era búsqueda vectorial con un LLM detrás. El de 2025 es un sistema híbrido que combina vectores, búsqueda léxica y grafos de conocimiento. Qué ha cambiado, dónde funciona cada pieza y qué decisiones marcan la diferencia entre un RAG útil y uno decepcionante.

182 14 min July 17, 2025 4.2

Inteligencia Artificial

Gemini 2.5: context scaling and multimodality

Google publicó Gemini 2.5 Pro en vista previa en marzo y la versión general llegó en junio. El salto respecto a Gemini 2.0 no está solo en puntuaciones sino en dos frentes prácticos: ventana de contexto utilizable en serio y multimodalidad que deja de ser demostración para convertirse en herramienta.

146 13 min June 29, 2025 4.3

Inteligencia Artificial

The initial Claude 4 family: first quality tests

Anthropic presentó Claude Opus 4 y Claude Sonnet 4 el 22 de mayo de 2025, el primer salto grande de nomenclatura desde la serie 3.5. Un mes de uso real en código, documentación técnica y agentes para separar lo que ha mejorado de lo que sigue igual.

123 10 min June 23, 2025 4.3

Inteligencia Artificial

The knowledge graph era is reborn with LLMs

Durante una década los grafos de conocimiento fueron una idea académica con pocos casos vivos. Los LLM han cambiado esa ecuación: ahora sirven para anclar respuestas, auditar razonamiento y sostener agentes sin alucinar.

119 11 min May 21, 2025 4.6