Inteligencia Artificial Metodologías

FinOps de tokens en agentes: la cuenta que sorprende

FinOps de tokens en agentes: la cuenta que sorprende

Actualizado: 2026-05-03

El patrón es predecible. Un equipo despliega el primer agente a producción, la factura del primer mes aparece y es el doble o el triple de lo estimado. La reacción suele ser pánico seguido de optimización agresiva, a veces sacrificando calidad. Existe una tercera vía: FinOps disciplinado aplicado a agentes, con las palancas ordenadas por ratio coste/riesgo.

Puntos clave

  • El cacheo de prompts corta el coste de tokens de entrada un 50-90 % con cero impacto en calidad.
  • Un router de modelos ahorra entre el 30 y el 70 % asignando cada tarea al modelo adecuado.
  • El control de contexto evita el crecimiento cuadrático del coste por turno.
  • El batching para tareas no interactivas ofrece descuentos del 50 % en Anthropic y OpenAI.
  • Sin telemetría por tenant y tarea, ninguna de las otras palancas se puede calibrar.

Primera palanca: cacheo agresivo

La victoria más fácil y con cero impacto en calidad es el cacheo. Claude prompt caching[1], OpenAI prompt caching[2] y equivalentes reducen el coste de tokens de entrada un 50-90 % cuando hay repetición estructural. El patrón que más aplica: system prompts largos con instrucciones, few-shots o contexto de herramientas estables entre llamadas.

Implementación típica: todo lo que no cambia entre turnos se marca como cacheable; lo que cambia (la consulta del usuario, estado dinámico) queda fuera. El ahorro es inmediato y no requiere cambios en la lógica del agente.

Segunda palanca: router de modelos por dificultad

No toda tarea necesita el modelo más caro. Un router que clasifica la consulta y la envía al modelo adecuado ahorra entre el 30 % y el 70 % del gasto según la distribución de tareas. La clasificación puede ser:

  • Simple: reglas por palabra clave.
  • Sofisticada: modelo pequeño como clasificador (Haiku 4.5 como router).

El stack habitual combina Haiku 4.5 o Gemini Flash para tareas ligeras, Sonnet 4.6 para la mayoría del tráfico, y Opus 4.7 solo para las consultas que el router marca como complejas. La clave es medir la precisión del router: si clasifica mal y manda al modelo caro cuando no hace falta, el ahorro se evapora.

Tercera palanca: control de contexto

Los agentes tienden a acumular contexto. Sin control, una conversación de cinco turnos pasa a doce mil tokens; diez turnos, veinticinco mil. El coste por turno crece cuadráticamente porque se factura la acumulación en cada llamada.

Las técnicas que funcionan:

  • Resumen periódico: cada N turnos, el historial se comprime a un resumen.
  • Ventana deslizante: solo los últimos K turnos completos.
  • Selección retrieval: al inicio de cada turno, recuperar solo los fragmentos relevantes.

Combinadas, bajan el gasto por conversación un 40-60 % sin degradar la percepción del usuario si están bien calibradas.

Cuarta palanca: batching cuando se puede

Las tareas no interactivas (procesamiento nocturno, resumen de reportes, clasificación masiva) aceptan batching. Anthropic Batch API[3] y OpenAI Batch API[4] ofrecen descuentos del 50 % a cambio de latencia tolerable (horas en lugar de segundos). Para flujos donde la respuesta inmediata no es necesaria, no usar batch es dejar dinero sobre la mesa.

Quinta palanca: telemetría que revela el gasto real

La condición necesaria para optimizar es ver dónde se va el dinero. El mínimo son métricas por:

  • Tenant y tarea.
  • Modelo y tipo de llamada (cacheable o no).
  • Tokens de entrada y salida.

Con ese nivel se identifican fácilmente los tenants que consumen 10× la media, las tareas mal acotadas y los flujos rotos que hacen llamadas en bucle. Herramientas que incluyen esta telemetría: Helicone[5], Langfuse[6], Portkey[7], además de los dashboards nativos de los proveedores.

Lo que no funciona

Tres antipatrones frecuentes:

  1. Cambiar de proveedor por diferencias del 10 % de precio sin cambiar nada más: el tiempo de ingeniería supera el ahorro.
  2. Bajar el modelo sin evaluar: cae la calidad, los clientes reportan, se vuelve atrás con pérdida neta.
  3. “Negociar con el proveedor” sin volumen real: los descuentos por volumen empiezan donde está el 1 % de los clientes; debajo no hay palanca.

Conclusión

El FinOps de agentes es un área madura con palancas claras. Aplicadas en orden — cacheo, routing, control de contexto, batching, telemetría — reducen el coste a la mitad o a un tercio sin impacto en calidad percibida. Lo que no funciona es reaccionar a la factura con pánico y recortar en cosas visibles; lo que funciona es invertir unos días en instrumentación y decisiones de arquitectura que se amortizan el primer mes.

¿Te ha resultado útil?
[Total: 5 · Media: 4.2]
  1. Claude prompt caching
  2. OpenAI prompt caching
  3. Anthropic Batch API
  4. OpenAI Batch API
  5. Helicone
  6. Langfuse
  7. Portkey

Escrito por

CEO - Jacar Systems

Apasionado de la tecnología, la infraestructura cloud y la inteligencia artificial. Escribe sobre DevOps, IA, plataformas y software desde Madrid.