RAG with Postgres and pgvector in production: from PoC to SLO
Embeddings, HNSW indexing, reranking, evaluation, context window, latency under load. Full stack with code and measurable SLOs.
Category
AI without the hype: models, agents and use cases that work in production.
Embeddings, HNSW indexing, reranking, evaluation, context window, latency under load. Full stack with code and measurable SLOs.
On 2 August 2026 high-risk, transparency and Commission enforcement powers kick in. A per-system checklist with downloadable template.
The OTel GenAI spec stabilizes attributes for LLMs, tools, and agents. Practical Python implementation with Anthropic + Grafana Tempo.
Tested May 2026 recipe: oMLX 0.3.8 on Mac M5 Max with 128 GB, TurboQuant at 3.5-bit, Qwen 3.6 35B-A3B model stack, Claude Code wiring and real benchmarks.
Three frameworks, three mental models. When to use each and why — with a real orchestration case.
Full tutorial: tool use, streaming, prompt caching, observability, and your own MCP server. Reference repo included.
Three production coding agents, five real tasks measured by time, tokens, and PR quality. No marketing — the actual measurement.
After eighteen months of multi-vendor adoption, MCP is the de facto standard for connecting models to tools. The complete guide: architecture, servers, policies, authentication, composition, and the antipatterns we’ve already seen in production.
The Model Context Protocol, proposed by Anthropic in late 2024 and adopted through 2025-2026 by every major vendor, has proven operational patterns. This is the state of the art.
Using an LLM to judge another LLM became widespread in 2024 and remains the only scalable way to evaluate qualitative quality. The mature question is when to trust those numbers.
Sonnet 4.6 es el modelo por defecto de la mayoría de cargas de trabajo en 2026. Estos son los casos donde brilla, dónde no basta y por qué sigue siendo el sweet spot.
Tres años después del boom inicial, el RAG en producción ha convergido en patrones híbridos que combinan búsqueda densa, léxica y reranking. Estos son los que sobreviven al paso del tiempo.
Opus 4.7 se lanzó como el modelo más capaz de Anthropic con énfasis en trabajo agéntico de horizonte largo. Tras dos meses de uso intensivo, estos son los cambios prácticos frente a Opus 4.6.
La primera factura de un agente en producción suele ser más alta de lo que el equipo esperaba. Este artículo recoge las palancas reales para controlar el coste sin sacrificar calidad.
Mientras OpenAI y Anthropic acaparan titulares con rondas gigantes, un conjunto creciente de startups de IA de nicho factura millones con equipos de tres a diez personas. Estos son los patrones que comparten.
La idea de que la UI se genere sobre la marcha en lugar de ser prediseñada llegó a producción en 2025. Tras un año de casos reales, el balance es más matizado que el entusiasmo inicial.
Direct Preference Optimization and its relatives have displaced RLHF as the preferred alignment method in much of the ecosystem. This is the practical state of the field in 2026.
Skills package reusable capabilities; subagents isolate bounded-task execution. Together they form the most effective pattern for composing complex agents in 2026.
Synthetic data has moved from precarious substitute for real data to central component of modern training. These are the patterns that work and those still failing.
Los agentes fallan. La pregunta no es si, sino cómo y qué haces en los primeros veinte minutos. Este es el runbook que distingue un incidente contenido de una reputación dañada.
El red teaming de modelos de lenguaje ha pasado de actividad esotérica a práctica obligatoria. Con OWASP Agentic Top 10 y CSA Agentic AI Red Teaming Guide convergiendo en un vocabulario común, este es el manual operativo que cualquier equipo que despliegue agentes necesita tener.
Después de año y medio llenando tableros con agentes en producción, la pregunta que separa equipos que envían fiable de los que van a ciegas sigue siendo la misma: ¿cómo mides que el agente está funcionando?
Prompt engineering ha pasado de ser una colección de trucos virales a una disciplina con patrones reproducibles, librerías dedicadas y herramientas de observabilidad.
El concepto de Agent OS pasó del slide al despliegue en 2025. Seis meses en producción dejan patrones visibles: qué arquitecturas funcionan, dónde se rompe el modelo y qué aporta frente a correr agentes sobre pila existente.
Step-by-step tutorial in the established jacar.es series: install, GPU setup, quantized models, and secure exposure behind Traefik.
Un año después de que GraphRAG saliera de laboratorio, queda una estadística clara: funciona donde la información corporativa tiene relaciones densas, falla donde solo hay documentos sueltos. Patrones, costes y decisiones de arquitectura que han sobrevivido.
Model Context Protocol ha pasado de propuesta a estándar de facto para conectar editores con herramientas. Guía práctica para levantar un servidor MCP local, conectarlo a VS Code o a tu cliente favorito y entender qué estás exponiendo realmente.
Tras dos años de pilotos y un año de agentes en producción, la gobernanza ha pasado de comité aspiracional a control operativo. Qué piden las auditorías, qué rompió en 2025 y qué barandillas están absorbiendo la mayoría de los incidentes.
Durante 2025 cientos de equipos pusieron agentes IA en producción real. A principios de 2026, con datos suficientes, emergen lecciones consistentes sobre qué falla, qué funciona, cuánto cuesta y qué tareas no encajan. Repaso ordenado para equipos que empiezan ahora.
Dieciséis meses después del anuncio inicial, Model Context Protocol pasó de curiosidad a estándar de facto entre clientes y servidores de agentes. Qué hay disponible, qué servidores merecen la pena, qué problemas siguen abiertos y cómo se parece al mapa de protocolos anteriores.
Con la Ley de IA de la Unión Europea en aplicación plena desde agosto de 2026 para los sistemas de alto riesgo, el primer ciclo completo permite sacar conclusiones prácticas. Qué cumplen las empresas sin esfuerzo, qué se está incumpliendo de facto, qué ha costado más y qué ha quedado en letra muerta.
La factura de IA en las empresas ha dejado de ser anecdótica. Entre tokens de modelos frontera, GPUs reservadas que nadie usa y pipelines RAG con cachés mal configuradas, muchos equipos pagan diez veces lo que deberían. Guía de FinOps específico para IA sin relatos promocionales.
Tras dieciséis meses desde la primera versión de computer use de Anthropic y el empuje paralelo de browser-use, OpenAI Operator y Gemini Control, los agentes que manejan navegador y escritorio han pasado de demo a flujos reales. Toca revisar qué patrones sobreviven cuando los ejecutas todos los días en producción.
Una selección de postmortems publicados entre 2025 y 2026 por equipos que operan sistemas con IA en producción revela patrones repetidos: fallos en guardrails, deriva silenciosa de modelos, dependencia oculta del proveedor y una colección de sustos que vale la pena destilar.
Tres años de valoraciones vertiginosas han empezado a corregirse sin estrépito pero con firmeza: rondas abajo, despidos selectivos y consolidación en torno a propuestas con ingresos reales. Una lectura ordenada de qué sobrevive, qué se quema y qué aprende el ecosistema.
Anthropic publicó Haiku 4.5 en octubre de 2025 y el modelo ha madurado rápido: rendimiento cercano a Sonnet 4 en tareas estructuradas a un tercio del coste, ventana amplia y latencia baja. Es la pieza que faltaba para desplegar agentes a escala sin quemar presupuesto.
Los grafos de conocimiento llevaban dos décadas esperando su momento. Con los LLM como puente entre texto y ontología, y el patrón GraphRAG ya maduro, la tecnología vuelve al primer plano. Toca revisar por qué ahora sí encaja y dónde conviene usarla.
Después de dos años viendo cómo cada producto inventaba su propia interfaz para hablar con un agente, en enero de 2026 empieza a emerger un consenso estable sobre qué patrones funcionan, cuáles no y qué espera ya el usuario medio. Toca recoger lo que ha quedado.
Seis meses después de que A2A llegara a la Linux Foundation, y tras varios ciclos de implementación por parte de Google, Microsoft y proyectos abiertos, qué significa la versión 1 del protocolo y si ya es seguro construir sobre él.
El discurso de la IA soberana europea lleva tres años alimentando titulares, inversiones públicas y acuerdos interestatales. Empezamos a ver qué parte de la promesa tiene sustancia técnica y qué parte sigue siendo narrativa política, con Mistral, Aleph Alpha y la red de supercomputación EuroHPC como ejes.
Con MCP resolviendo la conexión entre agente y herramientas, el siguiente cuello de botella aparece: cómo hablan entre sí dos agentes de distintos proveedores. Agent2Agent de Google, donado a la Linux Foundation en 2025, intenta ocupar ese hueco.
Phi-3 es la familia de modelos pequeños de lenguaje que Microsoft viene puliendo desde abril de 2024 con variantes de 3.800 millones, 7.000 millones y 14.000 millones de parámetros. Después de año y medio, el panorama del edge con SLM abiertos se ha vuelto serio y Phi-3 ocupa un sitio claro.
Los modelos grandes de lenguaje llevan dos años prometiendo documentar código, APIs y arquitecturas sin esfuerzo. Después de ver docenas de proyectos intentarlo, hay patrones claros de dónde funciona y dónde acaba siendo una deuda más.
Los frameworks de guardrails prometen filtrar entradas y salidas de modelos de lenguaje para bloquear fugas de datos, contenido dañino o alucinaciones. Tras evaluar cuatro de los más populares en producción, repaso qué hacen realmente, qué coste en latencia y factura añaden y cuándo compensan frente a controles más simples.
Los agentes que encadenan llamadas a modelos, herramientas y memoria son difíciles de depurar sin una instrumentación pensada para ellos. Después de un año largo operando agentes en producción, repaso qué hay que medir primero, qué estándares están consolidándose y qué errores caros evita tener trazas bien hechas desde el inicio.
Un proxy con caché delante de un modelo de lenguaje puede reducir la factura de tokens de forma significativa, pero introduce riesgos sutiles si el diseño no es cuidadoso. Qué tipos de caché funcionan en producción, dónde están las trampas habituales y cómo integrarlos sin degradar la experiencia.
Un enrutador de inferencia decide qué modelo atiende cada petición en función de coste, latencia y complejidad. Bien diseñados reducen la factura de tokens sin que el usuario perciba degradación; mal diseñados introducen fallos sutiles difíciles de depurar.
Probar sistemas que incluyen modelos de lenguaje rompe la primera regla del testing: la misma entrada da la misma salida. Analizo las estrategias que han funcionado tras un año largo integrando IA en productos reales, por qué los tests deterministas tradicionales no bastan y cómo plantear un cinturón de pruebas que capture regresiones sin bloquearse en la varianza.