RAG con Postgres y pgvector en producción: del PoC al SLO

Postgres con pgvector es la opción por defecto para RAG en producción hasta diez millones de vectores: un índice HNSW, una base de datos y un plan de backup. Con reranking de dos etapas, búsqueda híbrida BM25 y SLOs medibles (p95 menor de 700 ms, recall@10 mayor de 0,85), la pila escala sin infraestructura adicional.

9 de junio de 2026 11 min 330

Inteligencia Artificial

Cómo construir un agente productivo con el SDK de Anthropic, paso a paso

Esta guía muestra cómo construir un agente productivo con el SDK de Anthropic en Python: el bucle de tool use con la Messages API, streaming con backpressure mediante una cola acotada, prompt caching con cache_control, un servidor MCP propio registrado con el Claude Agent SDK, trazas OTel GenAI y un contenedor Docker no-root listo para producción.

12 de mayo de 2026 15 min 597

Inteligencia Artificial

LLM-as-judge maduro: cuándo confiar y cuándo no

Usar un LLM como juez de otro LLM se generalizó en 2024 y sigue siendo, en 2026, la única forma escalable de evaluar calidad cualitativa en sistemas con LLM. Es fiable si la correlación juez-humano supera 0,7 en 30 casos y se recalibra cada trimestre; por debajo de ese umbral, no fiarse del número.

28 de abril de 2026 3 min 302 4,7

Inteligencia Artificial

Claude Opus 4.7 y tareas de horizonte largo: cambios reales

Opus 4.7 se lanzó como el modelo más capaz de Anthropic con énfasis en trabajo agéntico de horizonte largo. Tras dos meses de uso intensivo, estos son los cambios prácticos frente a Opus 4.6.

28 de abril de 2026 3 min 362 4,7

Inteligencia Artificial

FinOps de tokens en agentes: la cuenta que sorprende

La primera factura de un agente en producción suele doblar o triplicar lo estimado. Este artículo repasa cinco palancas reales y en orden de prioridad, cacheo, routing, control de contexto, batching y telemetría, para recortar el coste sin tocar la calidad percibida.

28 de abril de 2026 4 min 327 4,2

Herramientas

Herramientas DevOps con IA integrada que uso en mi flujo diario

Después de catorce meses probando herramientas DevOps con IA integrada en varios equipos, el stack que se queda es reducido: Claude Code, Cursor y Aider para código; PagerDuty AIOps, Datadog Bits AI y Grafana Assistant para triage de alertas; y OpenTofu con OPA para generar infraestructura acotada por reglas de política.

28 de abril de 2026 5 min 364 4,0

Inteligencia Artificial

Incidentes con agentes IA: runbooks de recuperación que funcionan

Los agentes de IA fallan en producción: lo que importa es cómo respondes en los primeros veinte minutos. Este runbook cubre clasificación de severidad, aislar antes de investigar, purgar memoria contaminada, comunicar sin inventar datos y convertir cada incidente en una prueba de regresión antes de darlo por cerrado.

28 de abril de 2026 5 min 294 4,7

Inteligencia Artificial

LLM red teaming: manual práctico

El red teaming de modelos de lenguaje ha pasado de actividad esotérica a práctica obligatoria. Con OWASP Agentic Top 10 y CSA Agentic AI Red Teaming Guide convergiendo en un vocabulario común, este es el manual operativo que cualquier equipo que despliegue agentes necesita tener.

26 de abril de 2026 7 min 266 4,2

Inteligencia Artificial

Evaluaciones de agentes en producción: el framework que funciona

Después de año y medio llenando tableros con agentes en producción, la pregunta que separa equipos que envían fiable de los que van a ciegas sigue siendo la misma: ¿cómo mides que el agente está funcionando?

22 de abril de 2026 9 min 295 4,3

Metodologías

RICE: marco de priorización para hojas de ruta de producto

El marco RICE es una metodología de priorización creada por Intercom que produce una puntuación combinando cuatro factores: Reach, Impact, Confidence y Effort. El resultado de multiplicar los tres primeros se divide entre el esfuerzo estimado en persona-mes, lo que permite comparar iniciativas distintas con un único número objetivo.

18 de abril de 2026 4 min 304 4,1

Inteligencia Artificial

Prompt engineering: de truco a disciplina madura

Prompt engineering ha madurado de trucos virales a disciplina con patrones reproducibles: few-shot, chain-of-thought y salida estructurada con function calling. Los equipos que tratan los prompts como código (versionados, probados y monitorizados) obtienen resultados consistentemente mejores que los que improvisan.

17 de abril de 2026 5 min 325 4,7

Metodologías

Migración post-cuántica: lo que está pasando de verdad

Dos años después de los estándares NIST finales, la migración post-cuántica ya no es hipótesis. Qué se ha migrado de verdad, qué sigue atascado, dónde están los problemas operativos reales y cómo se ven los plazos desde abril de 2026.

10 de abril de 2026 7 min 316 4,0

Inteligencia Artificial

Gobernanza de agentes en empresa: los controles que ya no son opcionales

Tras dos años de pilotos y un año de agentes en producción, la gobernanza ha pasado de comité aspiracional a control operativo. Qué piden las auditorías, qué rompió en 2025 y qué barandillas están absorbiendo la mayoría de los incidentes.

1 de abril de 2026 7 min 321 4,4

Inteligencia Artificial

Lecciones de agentes en producción en 2025: resumen para 2026

Durante 2025 cientos de equipos pusieron agentes IA en producción real. A principios de 2026, con datos suficientes, emergen lecciones consistentes sobre qué falla, qué funciona, cuánto cuesta y qué tareas no encajan. Repaso ordenado para equipos que empiezan ahora.

26 de marzo de 2026 7 min 305 4,7

Arquitectura

Platform engineering consolidado: quién gana y quién se queda

Tres años después de que platform engineering se convirtiera en palabra de moda, el polvo ha caído. Unas pocas empresas tienen plataformas internas que de verdad aceleran al desarrollo, muchas montaron un portal Backstage vacío y algunas volvieron a DevOps clásico. Análisis de qué distingue a las que ganaron.

11 de marzo de 2026 8 min 268

Inteligencia Artificial

FinOps para cargas de IA en 2026: el dolor real

La factura de IA en las empresas ha dejado de ser anecdótica. Entre tokens de modelos frontera, GPUs reservadas que nadie usa y pipelines RAG con cachés mal configuradas, muchos equipos pagan diez veces lo que deberían. Guía de FinOps específico para IA sin relatos promocionales.

5 de marzo de 2026 7 min 324 4,4

Inteligencia Artificial

Agentes que manejan el ordenador: patrones que funcionan

Tras dieciséis meses desde la primera versión de computer use de Anthropic y el empuje paralelo de browser-use, OpenAI Operator y Gemini Computer Use, los agentes que manejan navegador y escritorio han pasado de demo a flujos reales. Toca revisar qué patrones sobreviven cuando los ejecutas todos los días en producción.

2 de marzo de 2026 7 min 327 4,4

Inteligencia Artificial

Postmortems de incidentes con IA: lo que nos han enseñado

Una selección de postmortems publicados entre 2025 y 2026 por equipos que operan sistemas con IA en producción revela patrones repetidos: fallos en guardrails, deriva silenciosa de modelos, dependencia oculta del proveedor y una colección de sustos que vale la pena destilar.

27 de febrero de 2026 8 min 359 4,6

Metodologías

Product discovery con IA: prácticas que se quedan

Dos años de experimentación con modelos generativos aplicados a descubrimiento de producto han dejado prácticas concretas útiles y otras tantas que se descartan. Un repaso honesto de qué ha funcionado, qué ha fracasado y cómo incorporar IA al ciclo de discovery sin corromper sus fundamentos.

24 de febrero de 2026 7 min 286

Metodologías

Carbon-aware scheduling por defecto: primer balance

A principios de 2026, varias plataformas de orquestación incluyen carbon-aware scheduling como opción por defecto o muy visible. Con meses de datos reales, toca evaluar si la promesa de reducir emisiones sin dañar rendimiento se cumple y en qué escenarios.

12 de febrero de 2026 8 min 307 4,3

Metodologías

SRE con IA: cuadros de mando que de verdad ayudan

Los cuadros de mando con IA llevan un par de años prometiendo detección de anomalías mágica y causa raíz automática. La realidad es más modesta pero también más útil, si se sabe separar el ruido del valor real. Repaso honesto de qué funciona y qué no.

3 de febrero de 2026 8 min 277 4,3

Inteligencia Artificial

Documentación automática con LLM: cuándo aporta y cuándo molesta

Los modelos grandes de lenguaje llevan dos años prometiendo documentar código, APIs y arquitecturas sin esfuerzo. Después de ver docenas de proyectos intentarlo, hay patrones claros de dónde funciona y dónde acaba siendo una deuda más.

17 de diciembre de 2025 7 min 272 4,3

Inteligencia Artificial

Guardrails en LLM: frameworks y su coste real

Los frameworks de guardrails prometen filtrar entradas y salidas de modelos de lenguaje para bloquear fugas de datos, contenido dañino o alucinaciones. Tras evaluar cuatro de los más populares en producción, repaso qué hacen realmente, qué coste en latencia y factura añaden y cuándo compensan frente a controles más simples.

11 de diciembre de 2025 9 min 491 4,4

Inteligencia Artificial

Observabilidad de agentes de IA: qué instrumentar primero

Los agentes que encadenan llamadas a modelos, herramientas y memoria son difíciles de depurar sin una instrumentación pensada para ellos. Después de un año largo operando agentes en producción, repaso qué hay que medir primero, qué estándares están consolidándose y qué errores caros evita tener trazas bien hechas desde el inicio.

8 de diciembre de 2025 9 min 291

Arquitectura

Platform engineering: consolidación tras el boom

Después de tres años de expansión y de un ecosistema sobreexcitado alrededor del término, platform engineering llega a 2025 en una fase de consolidación. Las plataformas internas que sobreviven son las que entendieron su función real, las que confundieron el nombre con la solución están desmantelando sus equipos o recortándolos drásticamente.

20 de noviembre de 2025 8 min 242

Inteligencia Artificial

Testing con IA: el problema del determinismo

Probar sistemas que incluyen modelos de lenguaje rompe la primera regla del testing: la misma entrada da la misma salida. Analizo las estrategias que han funcionado tras un año largo integrando IA en productos reales, por qué los tests deterministas tradicionales no bastan y cómo plantear un cinturón de pruebas que capture regresiones sin bloquearse en la varianza.

11 de noviembre de 2025 8 min 255

Metodologías

Cómputo consciente de carbono: ya es el comportamiento por defecto

Hace cuatro años era una curiosidad académica. Hoy, planificar cargas por intensidad de carbono de la red eléctrica es una opción integrada de fábrica en Kubernetes, en varios servicios de proveedores cloud y en herramientas de CI. Repasamos qué cambió de verdad y qué sigue siendo más promesa que práctica.

9 de septiembre de 2025 9 min 277 4,6

Experiencia de Usuario

Investigación con usuarios en la era de la IA generativa

Los equipos de producto están tentados de sustituir entrevistas y tests reales por síntesis de IA. Dos años de experiencia ya permiten separar dónde la IA ayuda de verdad y dónde genera una falsa sensación de entender al usuario.

22 de agosto de 2025 6 min 286 4,3

Metodologías

Migrar SSH a criptografía post-cuántica: guía práctica

OpenSSH añadió intercambio de claves híbrido post-cuántico con ML-KEM en la versión 9.9 y lo hizo el algoritmo por defecto en la 10.0. La pregunta ya no es si migrar SSH a post-cuántica, sino cómo hacerlo sin romper clientes antiguos: activar el híbrido, mantener un fallback clásico y verificar con ssh -v que el algoritmo activo es el correcto.

16 de agosto de 2025 7 min 495 4,4

Inteligencia Artificial

Computer Use en producción: agentes que manejan la interfaz

Casi nueve meses después del lanzamiento de Computer Use, algunos equipos lo han llevado a producción para tareas reales. Dónde funciona, dónde todavía no conviene, y qué patrones están emergiendo para que un agente que maneja ratón y teclado no acabe siendo más problema que solución.

14 de julio de 2025 8 min 266 4,5

Inteligencia Artificial

Integración continua con agentes de IA: primeros patrones

Los agentes de IA empiezan a tener un hueco serio en los pipelines de integración continua: revisar diffs, proponer arreglos, generar tests que faltan. Seis meses de uso real para separar los patrones que funcionan de los que acaban costando más tiempo del que ahorran.

8 de julio de 2025 8 min 293 4,4

Metodologías

Profiling continuo con eBPF en producción

El profiling continuo con eBPF toma muestras del stack de cada proceso cada pocos milisegundos sin tocar el código, y guarda el historial para comparar el rendimiento de una semana con otra. El coste medido en producción está entre el 1% y el 3% de CPU, y compensa sobre todo en bases de datos, pasarelas de API y servicios de alta concurrencia.

8 de junio de 2025 7 min 262 4,5

Metodologías

Site Reliability Workbook: patrones que seguimos usando

Han pasado siete años desde que Google publicó el Workbook, y buena parte del libro no ha envejecido. Repaso los patrones que de verdad aplicamos en equipos pequeños y los que resultaron ser cultura de campus.

5 de junio de 2025 7 min 252

Inteligencia Artificial

FinOps aplicado a IA: dónde se va el coste de verdad

En sistemas de IA el coste real no está en las instancias EC2, sino en los tokens de entrada de RAG y agentes, las llamadas de herramientas encadenadas y los reindexados frecuentes; esos vectores, sumados a los experimentos sin atribución, concentran la mayor parte de la factura mensual en producción.

15 de mayo de 2025 7 min 272 4,0

Inteligencia Artificial

Evaluación continua de RAG: cuadros de mando que importan

Un sistema RAG sin evaluación continua se degrada en silencio. Los índices cambian, los modelos se actualizan, los usuarios preguntan cosas nuevas. Este es un repaso práctico de qué métricas vigilar y cómo montar el cuadro de mando que avisa antes del incidente.

9 de mayo de 2025 7 min 271 4,3

Metodologías

VEX: filtrar ruido de vulnerabilidades con contexto

Después de años acumulando SBOMs, el cuello de botella es filtrar qué CVEs afectan de verdad. VEX aparece como la pieza que convierte el ruido en señal, y en 2025 empieza a tener adopción real en pipelines de supply chain.

3 de abril de 2025 7 min 253 4,5

Inteligencia Artificial

Agentes de IA en empresa: de demo a valor medible

Los agentes de IA han pasado de ser un tema de laboratorio a tener SDKs serios en tres grandes proveedores. Reflexión sobre cómo pasar de la demo llamativa a un caso de uso interno que mueva una métrica real.

31 de marzo de 2025 7 min 283 4,4

Metodologías

Semgrep: SAST moderno en tu pipeline

Semgrep ha crecido hasta convertirse en uno de los análisis estáticos más pragmáticos del ecosistema. Reflexión sobre por qué funciona donde otros SAST fracasan y cómo meterlo en un pipeline sin que se convierta en ruido.

25 de marzo de 2025 7 min 271 4,5

Metodologías

Zero Trust integrado con SIEM: qué funciona de verdad

Dos años después de que Zero Trust dejase de ser palabra de marketing, toca mirar cómo conecta con el SIEM del día a día. Reflexión sobre señales útiles, ruido evitable y decisiones que de verdad cambian la postura de seguridad.

22 de marzo de 2025 8 min 322 4,5

Inteligencia Artificial

Gobernanza de IA en empresa: comités, políticas, auditorías

Con las primeras obligaciones del AI Act europeo ya en vigor, la gobernanza de la IA en empresa deja de ser teórica. Qué comités montar, qué políticas escribir y qué auditar, desde la experiencia de varias implantaciones.

13 de marzo de 2025 7 min 268

Herramientas

Dependabot y Renovate: dos enfoques para actualizar dependencias

Dependabot y Renovate persiguen lo mismo pero con filosofías distintas. Comparo ambos tras años usándolos en proyectos propios y de cliente, y repaso cuándo uno aprieta mejor y cuándo el otro se adapta más al flujo del equipo.

1 de marzo de 2025 7 min 286 4,6

Inteligencia Artificial

Modelos de pesos abiertos en empresa: un año después

Hace un año los pesos abiertos eran una apuesta; hoy son una opción de producción real. Repaso lo que ha funcionado, lo que no y cómo están encajando Llama, DeepSeek, Qwen y Mistral en arquitecturas empresariales que antes dependían de APIs cerradas.

26 de febrero de 2025 6 min 242 4,3

Desarrollo de Software

Pair programming con IA en 2025: hábitos que quedan

Dos años después de convivir con asistentes de IA en el editor, los hábitos se han asentado. Reflexión sobre qué ha cambiado en el día a día de programar, qué se ha aprendido y qué quedaba por descubrir.

17 de febrero de 2025 8 min 209 4,3

Inteligencia Artificial

Evaluación de alineamiento: RLHF, DPO y alternativas recientes

Tres años después de que RLHF se hiciera popular, el paisaje del alineamiento de modelos es más rico. Repaso de RLHF, DPO y los métodos más recientes como KTO o ORPO, con criterios para elegir.

8 de febrero de 2025 7 min 440

Metodologías

SLSA v1.0: un marco maduro para la cadena de suministro

SLSA v1.0 divide la seguridad de la cadena de suministro en tres pistas (Build, Source y Dependencies), de las que solo Build está estabilizada, con tres niveles: L1, L2 y L3. Si compilas en GitHub Actions, llegar a L2 con procedencia firmada por Sigstore lleva pocas horas y es el punto de partida que recomiendo a cualquier equipo.

31 de diciembre de 2024 7 min 231 4,5

Inteligencia Artificial

Cómo evaluar un sistema RAG sin engañarte a ti mismo

Medir la calidad de un sistema RAG con rigor exige más que revisar unas cuantas respuestas: hacen falta métricas objetivas (fidelidad, relevancia, precisión y cobertura de contexto), un conjunto dorado de cientos de preguntas curadas y validación humana periódica del juez LLM para evitar conclusiones engañosas.

28 de diciembre de 2024 7 min 269 4,3

Metodologías

Principios de software verde: una checklist para equipos

El software no es inmaterial: cada request y cada consulta a base de datos consumen electricidad con huella de carbono. La Green Software Foundation codifica ocho principios prácticos para reducir esa huella sin reescribir sistemas. Resultado: servicios más eficientes, facturas cloud más bajas y preparación para regulación ESG.

16 de diciembre de 2024 6 min 341 4,6

Inteligencia Artificial

Observabilidad de LLM: trazas, costes y calidad

Las aplicaciones basadas en LLM necesitan tres planos de observabilidad distintos: trazas de prompt y respuesta para depurar alucinaciones, seguimiento de costes por token y por función, y evaluación de calidad de respuesta. Herramientas como Langfuse, LangSmith y Helicone cubren estos planos con instrumentación específica.

10 de noviembre de 2024 8 min 295