Inteligencia Artificial Metodologías

agentes ia cloud costes finops llm optimización tokens

FinOps de tokens en agentes: la cuenta que sorprende

abril 28, 2026 7 min de lectura 142 lecturas

Índice de contenidos

Puntos clave
Primera palanca: cacheo agresivo
Segunda palanca: router de modelos por dificultad
Tercera palanca: control de contexto
Cuarta palanca: batching cuando se puede
Quinta palanca: telemetría que revela el gasto real
Lo que no funciona
Conclusión

Actualizado: 2026-05-03

El patrón es predecible. Un equipo despliega el primer agente a producción, la factura del primer mes aparece y es el doble o el triple de lo estimado. La reacción suele ser pánico seguido de optimización agresiva, a veces sacrificando calidad. Existe una tercera vía: FinOps disciplinado aplicado a agentes, con las palancas ordenadas por ratio coste/riesgo.

Puntos clave

El cacheo de prompts corta el coste de tokens de entrada un 50-90 % con cero impacto en calidad.
Un router de modelos ahorra entre el 30 y el 70 % asignando cada tarea al modelo adecuado.
El control de contexto evita el crecimiento cuadrático del coste por turno.
El batching para tareas no interactivas ofrece descuentos del 50 % en Anthropic y OpenAI.
Sin telemetría por tenant y tarea, ninguna de las otras palancas se puede calibrar.

Primera palanca: cacheo agresivo

La victoria más fácil y con cero impacto en calidad es el cacheo. Claude prompt caching^[1], OpenAI prompt caching^[2] y equivalentes reducen el coste de tokens de entrada un 50-90 % cuando hay repetición estructural. El patrón que más aplica: system prompts largos con instrucciones, few-shots o contexto de herramientas estables entre llamadas.

Implementación típica: todo lo que no cambia entre turnos se marca como cacheable; lo que cambia (la consulta del usuario, estado dinámico) queda fuera. El ahorro es inmediato y no requiere cambios en la lógica del agente.

Segunda palanca: router de modelos por dificultad

No toda tarea necesita el modelo más caro. Un router que clasifica la consulta y la envía al modelo adecuado ahorra entre el 30 % y el 70 % del gasto según la distribución de tareas. La clasificación puede ser:

Simple: reglas por palabra clave.
Sofisticada: modelo pequeño como clasificador (Haiku 4.5 como router).

El stack habitual combina Haiku 4.5 o Gemini Flash para tareas ligeras, Sonnet 4.6 para la mayoría del tráfico, y Opus 4.7 solo para las consultas que el router marca como complejas. La clave es medir la precisión del router: si clasifica mal y manda al modelo caro cuando no hace falta, el ahorro se evapora.

Tercera palanca: control de contexto

Los agentes tienden a acumular contexto. Sin control, una conversación de cinco turnos pasa a doce mil tokens; diez turnos, veinticinco mil. El coste por turno crece cuadráticamente porque se factura la acumulación en cada llamada.

Las técnicas que funcionan:

Resumen periódico: cada N turnos, el historial se comprime a un resumen.
Ventana deslizante: solo los últimos K turnos completos.
Selección retrieval: al inicio de cada turno, recuperar solo los fragmentos relevantes.

Combinadas, bajan el gasto por conversación un 40-60 % sin degradar la percepción del usuario si están bien calibradas.

Cuarta palanca: batching cuando se puede

Las tareas no interactivas (procesamiento nocturno, resumen de reportes, clasificación masiva) aceptan batching. Anthropic Batch API^[3] y OpenAI Batch API^[4] ofrecen descuentos del 50 % a cambio de latencia tolerable (horas en lugar de segundos). Para flujos donde la respuesta inmediata no es necesaria, no usar batch es dejar dinero sobre la mesa.

Quinta palanca: telemetría que revela el gasto real

La condición necesaria para optimizar es ver dónde se va el dinero. El mínimo son métricas por:

Tenant y tarea.
Modelo y tipo de llamada (cacheable o no).
Tokens de entrada y salida.

Con ese nivel se identifican fácilmente los tenants que consumen 10× la media, las tareas mal acotadas y los flujos rotos que hacen llamadas en bucle. Herramientas que incluyen esta telemetría: Helicone^[5], Langfuse^[6], Portkey^[7], además de los dashboards nativos de los proveedores.

Lo que no funciona

Tres antipatrones frecuentes:

Cambiar de proveedor por diferencias del 10 % de precio sin cambiar nada más: el tiempo de ingeniería supera el ahorro.
Bajar el modelo sin evaluar: cae la calidad, los clientes reportan, se vuelve atrás con pérdida neta.
“Negociar con el proveedor” sin volumen real: los descuentos por volumen empiezan donde está el 1 % de los clientes; debajo no hay palanca.

Conclusión

El FinOps de agentes es un área madura con palancas claras. Aplicadas en orden — cacheo, routing, control de contexto, batching, telemetría — reducen el coste a la mitad o a un tercio sin impacto en calidad percibida. Lo que no funciona es reaccionar a la factura con pánico y recortar en cosas visibles; lo que funciona es invertir unos días en instrumentación y decisiones de arquitectura que se amortizan el primer mes.

¿Te ha resultado útil?

[Total: 5 · Media: 4.2]

Post Views: 142

Escrito por

Javier Cañete

CEO - Jacar Systems

Apasionado de la tecnología, la infraestructura cloud y la inteligencia artificial. Escribe sobre DevOps, IA, plataformas y software desde Madrid.

FinOps de tokens en agentes: la cuenta que sorprende

Puntos clave

Primera palanca: cacheo agresivo

Segunda palanca: router de modelos por dificultad

Tercera palanca: control de contexto

Cuarta palanca: batching cuando se puede

Quinta palanca: telemetría que revela el gasto real

Lo que no funciona

Conclusión

Entradas relacionadas

«EU AI Act 2026: checklist técnica para CTOs españoles»

Observabilidad de agentes con OpenTelemetry GenAI semconv en 2026

Cómo instalar oMLX en M5 Max 128 GB y exprimirlo al máximo

Sistemas multi-agente: LangGraph vs CrewAI vs Autogen en 2026