LLM-as-judge maduro: cuándo confiar y cuándo no

Usar un LLM como juez de otro LLM se generalizó en 2024 y sigue siendo la única forma escalable de evaluar calidad cualitativa. La pregunta madura es cuándo fiarse de esos números.

140 5 min abril 28, 2026 4,7

Arquitectura

MCP como estándar multi-vendor: patrones ya maduros

El Model Context Protocol, propuesto por Anthropic a finales de 2024 y adoptado durante 2025-2026 por todos los grandes proveedores, tiene ya patrones operativos probados. Este es el estado del arte.

175 5 min abril 28, 2026 4,5

Inteligencia Artificial

Datos sintéticos para entrenamiento en 2026: cuándo funcionan

Los datos sintéticos han dejado de ser sustituto precario de datos reales para convertirse en componente central del entrenamiento moderno. Estos son los patrones probados y los que todavía fallan.

144 5 min abril 28, 2026 4,3

Arquitectura

Skills y subagentes: patrón de reutilización agente

Skills empaquetan capacidades reutilizables; subagentes aíslan ejecución de tareas acotadas. Juntos forman el patrón más efectivo para componer agentes complejos en 2026.

382 5 min abril 28, 2026 4,5

Inteligencia Artificial

DPO y alternativas a RLHF: estado práctico en 2026

Direct Preference Optimization y sus primas han desplazado a RLHF como alineamiento preferido en gran parte del ecosistema. Este es el estado práctico del campo en 2026.

767 5 min abril 28, 2026 4,7

Experiencia de Usuario

UI generada en tiempo real: primer año en serio

La idea de que la UI se genere sobre la marcha en lugar de ser prediseñada llegó a producción en 2025. Tras un año de casos reales, el balance es más matizado que el entusiasmo inicial.

273 6 min abril 28, 2026 4,2

Inteligencia Artificial

Incidentes con agentes IA: runbooks de recuperación que funcionan

Los agentes fallan. La pregunta no es si, sino cómo y qué haces en los primeros veinte minutos. Este es el runbook que distingue un incidente contenido de una reputación dañada.

121 8 min abril 28, 2026 4,7

Inteligencia Artificial

LLM red teaming: manual práctico

El red teaming de modelos de lenguaje ha pasado de actividad esotérica a práctica obligatoria. Con OWASP Agentic Top 10 y CSA Agentic AI Red Teaming Guide convergiendo en un vocabulario común, este es el manual operativo que cualquier equipo que despliegue agentes necesita tener.

126 12 min abril 26, 2026 4,3

Inteligencia Artificial

Evaluaciones de agentes en producción: el framework que funciona

Después de año y medio llenando tableros con agentes en producción, la pregunta que separa equipos que envían fiable de los que van a ciegas sigue siendo la misma: ¿cómo mides que el agente está funcionando?

145 15 min abril 22, 2026 4,3

Inteligencia Artificial

Prompt engineering: de truco a disciplina madura

Prompt engineering ha pasado de ser una colección de trucos virales a una disciplina con patrones reproducibles, librerías dedicadas y herramientas de observabilidad.

151 10 min abril 17, 2026 4,7

Arquitectura

Agent OS en producción: casos reales sin marketing

El concepto de Agent OS pasó del slide al despliegue en 2025. Seis meses en producción dejan patrones visibles: qué arquitecturas funcionan, dónde se rompe el modelo y qué aporta frente a correr agentes sobre pila existente.

165 13 min abril 13, 2026 4,5

Inteligencia Artificial

Desplegar Llama 3.3 y Mistral en local con Ollama y Open WebUI en Ubuntu 24.04

Tutorial paso a paso siguiendo la serie histórica de jacar.es: instalación, GPU, modelos cuantizados y exposición segura tras Traefik.

103 7 min abril 12, 2026