LLM-as-judge maduro: cuándo confiar y cuándo no
Usar un LLM como juez de otro LLM se generalizó en 2024 y sigue siendo la única forma escalable de evaluar calidad cualitativa. La pregunta madura es cuándo fiarse de esos números.
Categoría
Inteligencia artificial sin hype: modelos, agentes y casos de uso que funcionan en producción.
Usar un LLM como juez de otro LLM se generalizó en 2024 y sigue siendo la única forma escalable de evaluar calidad cualitativa. La pregunta madura es cuándo fiarse de esos números.
El Model Context Protocol, propuesto por Anthropic a finales de 2024 y adoptado durante 2025-2026 por todos los grandes proveedores, tiene ya patrones operativos probados. Este es el estado del arte.
Los datos sintéticos han dejado de ser sustituto precario de datos reales para convertirse en componente central del entrenamiento moderno. Estos son los patrones probados y los que todavía fallan.
Skills empaquetan capacidades reutilizables; subagentes aíslan ejecución de tareas acotadas. Juntos forman el patrón más efectivo para componer agentes complejos en 2026.
Direct Preference Optimization y sus primas han desplazado a RLHF como alineamiento preferido en gran parte del ecosistema. Este es el estado práctico del campo en 2026.
La idea de que la UI se genere sobre la marcha en lugar de ser prediseñada llegó a producción en 2025. Tras un año de casos reales, el balance es más matizado que el entusiasmo inicial.
Los agentes fallan. La pregunta no es si, sino cómo y qué haces en los primeros veinte minutos. Este es el runbook que distingue un incidente contenido de una reputación dañada.
El red teaming de modelos de lenguaje ha pasado de actividad esotérica a práctica obligatoria. Con OWASP Agentic Top 10 y CSA Agentic AI Red Teaming Guide convergiendo en un vocabulario común, este es el manual operativo que cualquier equipo que despliegue agentes necesita tener.
Después de año y medio llenando tableros con agentes en producción, la pregunta que separa equipos que envían fiable de los que van a ciegas sigue siendo la misma: ¿cómo mides que el agente está funcionando?
Prompt engineering ha pasado de ser una colección de trucos virales a una disciplina con patrones reproducibles, librerías dedicadas y herramientas de observabilidad.
El concepto de Agent OS pasó del slide al despliegue en 2025. Seis meses en producción dejan patrones visibles: qué arquitecturas funcionan, dónde se rompe el modelo y qué aporta frente a correr agentes sobre pila existente.
Tutorial paso a paso siguiendo la serie histórica de jacar.es: instalación, GPU, modelos cuantizados y exposición segura tras Traefik.