Inteligencia Artificial Metodologías

#automatizacion #buenas practicas #chain of thought #function calling #gpt-4 #ia generativa #llm #prompt engineering

Prompt engineering: de truco a disciplina madura

17 de abril de 2026 5 min 218 4,7

Arquitectura del modelo Transformer: base técnica de los modelos de lenguaje grande (LLM) sobre los que opera el prompt engineering

Índice de contenidos

Puntos clave
Los patrones que se han consolidado
Structured output como estándar
Self-consistency y verificación
Lo que ya no se recomienda
Herramientas de observabilidad y evaluación
Conclusión

Actualizado: 2026-06-20

Hace dieciocho meses, “prompt engineering” sonaba a truco de TikTok. Hoy es una disciplina con patrones probados, librerías dedicadas y mejores prácticas que convergen entre equipos. El cambio no es solo que los modelos hayan mejorado, sino que se entienden mejor — y los equipos que los integran en producto han pasado de experimentar sin orden a aplicar un vocabulario compartido.

Puntos clave

Los patrones consolidados son: instrucciones-contexto-pregunta, few-shot, chain-of-thought, salida estructurada e instrucciones positivas.
La salida estructurada con function calling (OpenAI) o tool use (Anthropic) ha eliminado gran parte del parsing frágil con regex.
Self-consistency — ejecutar el mismo prompt N veces y votar — mejora la precisión 10-20 puntos en razonamiento complejo.
Patrones virales de 2022 como “actúa como experto” o “toma aire” han envejecido mal y se deben evitar.
Tratar los prompts como código — versionados, testeados, monitorizados — separa a los equipos que obtienen resultados consistentes de los que no.

Los patrones que se han consolidado

Del OpenAI Cookbook^[1] y la biblioteca de prompts de Anthropic^[2], estos patrones han dejado de ser experimentales:

Instrucciones claras, luego contexto, luego pregunta. El orden importa: los modelos GPT-4 y equivalentes prestan más atención al inicio y al final del prompt. Empieza con la tarea, inserta el contexto en el medio y termina con la pregunta concreta.
Few-shot con ejemplos representativos. En tareas estructuradas (extracción, clasificación, reformulación) dar 2-5 ejemplos de input + output esperado dispara la calidad. La clave está en elegir ejemplos que cubran los casos fronterizos, no solo el caso ideal.
Chain-of-thought explícito. Pedir al modelo “razona paso a paso antes de responder” — introducido por Wei et al. 2022^[3] — mejora tareas de razonamiento lógico o matemático con efectos medibles en GSM8K y benchmarks similares.
Salida estructurada con esquema. Decirle al modelo “responde con un JSON que cumpla este schema: {…}” produce resultados parseables con tasas de error mucho menores que “dame un JSON”.
Instrucciones negativas mínimas. “No hagas X” funciona peor que “en lugar de X, haz Y”. Los modelos siguen mejor las direcciones positivas.

Structured output como estándar

Un cambio notable: la respuesta estructurada ha pasado de patrón emergente a capacidad nativa. OpenAI introdujo function calling^[4] — un mecanismo formal para que el modelo devuelva llamadas de función con argumentos JSON validados contra un esquema. Claude de Anthropic^[5] adoptó un patrón equivalente con tool use.

El impacto práctico es que muchas aplicaciones ya no necesitan parsing frágil con regex sobre texto libre. Se define una función (por ejemplo, extraerDatosFactura(número, fecha, total, items[])), se le pasa al modelo junto con el texto, y la respuesta es directamente invocable.

Librerías como Instructor^[6] (Python) o Marvin^[7] encapsulan estos patrones sobre Pydantic, dando salida tipada sin esfuerzo manual. Esto conecta con el ecosistema de plugins de ChatGPT, donde function calling ha canalizado muchos de los patrones de integración que antes requerían orchestration manual.

Arquitectura del Transformer: mecanismo de atención, encoder y decoder que subyace a los modelos de lenguaje modernos

Self-consistency y verificación

Cuando se necesita fiabilidad alta en decisiones críticas, un patrón robusto es self-consistency: ejecutar el mismo prompt N veces (típicamente 3-5), con temperature alta para generar diversidad, y votar mayoría sobre las respuestas. Wang et al. 2022^[8] mostraron que esta técnica puede aumentar la precisión 10-20 puntos en benchmarks de razonamiento complejo.

El coste en tokens es real — 3x a 5x por inferencia — pero en flujos donde un error tiene consecuencias (diagnóstico médico, análisis legal, decisiones financieras) la relación coste/fiabilidad es favorable.

Una variante más eficiente: critic-refine:

Genera una respuesta inicial con el prompt.
Pide al modelo que critique su propia respuesta: “¿qué problemas tiene esta respuesta?”.
Solicita una versión revisada incorporando la crítica.

Suele duplicar el coste, no multiplicarlo por 5, manteniendo buena parte de la ganancia en calidad. Es la misma lógica que aplicamos a las pruebas de software: un segundo paso de revisión detecta los errores que el primer paso omite.

Lo que ya no se recomienda

Tres patrones virales de 2022 que han envejecido mal:

“Toma aire profundo y trabaja el problema paso a paso.” Aportaba algo con GPT-3.5, pero con modelos más recientes y chain-of-thought explícito es redundante.
“Actúa como un experto en X.” Menos efectivo que dar instrucciones específicas sobre estilo, rigor y formato. Los modelos actuales responden mejor a “proporciona análisis técnico con citaciones” que a “eres un experto en ciberseguridad con 20 años de experiencia”.
Jailbreaks y manipulación de safety. Incluso cuando funcionan, producen respuestas de calidad peor que el modelo en modo normal — y violan términos de servicio.

Herramientas de observabilidad y evaluación

Con la madurez han aparecido herramientas para tratar prompts como artefactos de producción:

LangSmith^[9]: trazado de cadenas de prompts y evaluación automatizada. Útil para detectar regresiones cuando cambia el modelo o el prompt.
PromptLayer^[10]: versionado y A/B testing de prompts en producción.
Weights & Biases Prompts^[11]: experimentación estructurada con registro de métricas por variante.

Igual de importante: evals automatizados. Como señalamos en GitHub Copilot como asistente de código, la calidad de cualquier asistente IA se mide con casos de prueba reproducibles — el prompt engineering no es excepción. Los avances en NLP han dado métricas más precisas para evaluar calidad de salida más allá de la intuición humana.

Conclusión

Prompt engineering ya no es un truco: es una capa de ingeniería reproducible con patrones, librerías y herramientas de observabilidad. Los equipos que tratan los prompts con la misma disciplina que el código — versionados, testeados, monitorizados — obtienen resultados consistentemente mejores. El salto de calidad real no viene de encontrar el prompt mágico, sino de construir el proceso que permite iterar sobre prompts con datos.

Prompt engineering: de truco a disciplina madura

Puntos clave

Los patrones que se han consolidado

Structured output como estándar

Self-consistency y verificación

Lo que ya no se recomienda

Herramientas de observabilidad y evaluación

Conclusión

Comparte este artículo

¿Te ha resultado útil este artículo?

Entradas relacionadas

RAG con Postgres y pgvector en producción: del PoC al SLO

EU AI Act 2026: checklist técnica para CTOs españoles

Observabilidad de agentes con OpenTelemetry GenAI semconv en 2026

Cómo instalar oMLX en M5 Max 128 GB y exprimirlo al máximo