Prompt engineering: de truco a disciplina madura

Hace dieciocho meses, “prompt engineering” sonaba a truco de TikTok. Hoy es una disciplina con patrones probados, librerías dedicadas y mejores prácticas que convergen entre equipos. El cambio no es que los modelos hayan mejorado — que también — sino que se entienden mejor, y los equipos que los integran en producto han pasado de experimentar salvajemente a aplicar un vocabulario compartido.

Los patrones que se han consolidado

De la encuesta anual del Center for AI Safety y de reportes de equipos de ingeniería (OpenAI Cookbook, Anthropic prompt library), estos patrones han dejado de ser experimentales:

Instrucciones claras, luego contexto, luego pregunta. El orden importa: los modelos GPT-3.5 y GPT-4 prestan más atención al inicio y al final del prompt. Empieza con la tarea, inserta el contexto en el medio y termina con la pregunta concreta.
Few-shot con ejemplos representativos. En tareas estructuradas (extracción, clasificación, reformulación) dar 2-5 ejemplos de input + output esperado dispara la calidad. El diablo está en elegir ejemplos que cubran los casos fronterizos, no solo el caso ideal.
Chain-of-thought explícito. Pedir al modelo “razona paso a paso antes de responder” — introducido por Wei et al. 2022 — sigue mejorando tareas de razonamiento lógico o matemático con efectos medibles en GSM8K y benchmarks similares.
Salida estructurada con esquema. Decirle al modelo “responde con un JSON que cumpla este schema: {…}” produce resultados parseables con tasas de error mucho menores que “dame un JSON”.
Instrucciones negativas mínimas. “No hagas X” funciona peor que “en lugar de X, haz Y”. Los modelos siguen mejor direcciones positivas.

Structured output como estándar

Un cambio notable de 2023: la respuesta estructurada ha pasado de patrón emergente a capacidad nativa. En junio de 2023 OpenAI introdujo function calling en sus APIs — un mecanismo formal para que el modelo devuelva llamadas de función con argumentos JSON validados contra un esquema. Claude ha adoptado un patrón similar.

El impacto práctico es que muchas aplicaciones ya no necesitan parsing frágil con regex sobre texto libre. Se define una función (por ejemplo, extraerDatosFactura(numero, fecha, total, items[])), se le pasa al modelo junto con el texto, y la respuesta es directamente invocable. Esto ha reducido significativamente la cantidad de código “pegamento” en integraciones LLM + back-end.

Librerías como Instructor (Python) o Marvin encapsulan estos patrones sobre Pydantic, dando salida tipada sin esfuerzo manual.

Self-consistency y verificación

Cuando se necesita fiabilidad alta en decisiones críticas, un patrón robusto de 2023 es self-consistency: ejecutar el mismo prompt N veces (típicamente 3-5), con temperature alta para generar diversidad, y votar mayoría sobre las respuestas. Wang et al. 2022 mostraron que esta técnica puede aumentar la precisión 10-20 puntos en benchmarks de razonamiento complejo.

El coste en tokens es real — 3x a 5x para cada inferencia — pero en flujos donde un error tiene consecuencias (diagnóstico médico, análisis legal, decisiones financieras) la relación coste/fiabilidad es favorable.

Una variante más eficiente: critic-refine. Genera una respuesta inicial, pide al modelo que critique su propia respuesta (“¿qué problemas tiene esta respuesta?”), y luego pide una versión revisada. Suele duplicar el coste, no multiplicarlo por 5, manteniendo buena parte de la ganancia en calidad.

Lo que ya no se recomienda

Algunos patrones virales de 2022 han envejecido mal:

“Toma aire profundo y trabaja el problema paso a paso”. Funcionaba marginalmente con GPT-3.5 pero aporta poco sobre GPT-4 con chain-of-thought explícito.
“Actúa como un experto en X”. Menos efectivo que dar instrucciones específicas sobre el estilo, rigor y formato de la respuesta. Los modelos actuales responden mejor a “proporciona análisis técnico con citaciones” que a “eres un experto en ciberseguridad con 20 años de experiencia”.
Jailbreaks y manipulación de safety. Incluso cuando funcionan, producen respuestas de calidad peor que el modelo en modo normal — y suelen violar términos de servicio.

Herramientas de observabilidad y evaluación

Con la madurez han aparecido herramientas para tratar prompts como artefactos de producción:

LangSmith para tracing de cadenas de prompts + evaluación automatizada.
PromptLayer para versionado y A/B testing de prompts en producción.
Weights & Biases Prompts para experimentación estructurada.

Al mismo nivel de importancia: evals automatizados. Como escribimos en GitHub Copilot, la calidad de cualquier asistente IA se mide con casos de prueba reproducibles — prompt engineering no es excepción.

Conclusión

Prompt engineering ya no es un truco: es una capa de ingeniería reproducible con patrones, librerías y herramientas de observabilidad. Los equipos que tratan prompts con la misma disciplina que el código — versionados, testeados, monitorizados — están obteniendo resultados consistentemente mejores que los que “prueban cosas en ChatGPT” sin proceso.

Síguenos en jacar.es para más sobre LLMs en producción, ingeniería de IA y mejores prácticas de integración.

Los patrones que se han consolidado

Structured output como estándar

Self-consistency y verificación

Lo que ya no se recomienda

Herramientas de observabilidad y evaluación

Conclusión

Entradas relacionadas

Pair programming con IA en 2025: hábitos que quedan

vLLM en 2025: las mejoras que importan a quien sirve LLM

GraphRAG de Microsoft en empresa: patrones que funcionan