FinOps para cargas de IA en 2026: el dolor real
Actualizado: 2026-05-03
La primera vez que un director financiero me preguntó por qué la factura de IA de su empresa había subido un seiscientos por ciento en seis meses, fui yo quien se sorprendió: por un lado, los precios de los modelos frontera habían bajado; por otro, el equipo afirmaba que todo estaba bajo control. La investigación reveló la mezcla habitual: RAG sin caché, un agente mal configurado que se autorecursaba y un bucle de evaluación que lanzaba el modelo más caro disponible para validar respuestas del modelo más barato. La suma de errores pequeños produjo una factura muy grande. En 2026 este tipo de situaciones es regla, no excepción.
Puntos clave
- El FinOps clásico mira coste por recurso físico; para IA, las unidades son tokens, llamadas, embeddings y tiempo de GPU, lo que escala de forma no lineal con el uso.
- El error más caro es usar modelo frontera para tareas que no lo necesitan: el 40-70 % de las llamadas a modelo grande pueden hacerse con modelo mediano sin pérdida perceptible.
- Etiquetar llamadas por funcionalidad con metadatos de billing es el prerequisito de cualquier análisis de coste.
- Presupuesto por funcionalidad con alerta al 70 % evita el incidente de factura; implementación trivial, ROI inmediato.
- Para GPUs propias: medir utilización real por minuto, consolidar cargas y usar mercado spot para cargas tolerables a interrupción.
Por qué el FinOps clásico no basta
FinOps tradicional mira coste por recurso: instancias EC2, almacenamiento S3, transferencia de datos. Funciona bien cuando el consumo es relativamente estable y las unidades son físicas. Para IA, las unidades son tokens, llamadas, embeddings calculados y tiempo de GPU en cargas mixtas. Un solo agente mal diseñado puede gastar en un día lo que cuesta una instancia al mes, y los paneles clásicos de coste por servicio no capturan la causa porque agrupan todo en una línea de gasto de API.
La dificultad añadida es que el gasto en IA escala de forma no lineal con el uso. Una aplicación con mil usuarios diarios consume tokens de forma relativamente previsible. Añade agentes que razonan varios pasos y dales herramientas que encadenan llamadas entre sí, y habrás multiplicado el gasto por diez sin cambiar el número de usuarios.
La tercera complicación es la mezcla de costes fijos y variables. Las GPUs reservadas en hiperescalares o en proveedores como CoreWeave o Lambda Labs son coste fijo; los tokens de APIs comerciales son variable puro. Equipos que combinan ambas piezas acaban con zonas opacas donde no saben si les sale más barato usar más GPUs propias o más API.
Los errores caros más comunes
Usar modelos frontera para todo. Claude Opus y GPT-4o cuestan entre diez y treinta veces más por token que sus hermanos pequeños. La auditoría típica encuentra que entre el 40 y el 70 % de las llamadas a modelo frontera podrían haberse hecho con modelo mediano o pequeño sin pérdida perceptible de calidad: clasificación básica, resumen corto, extracción estructurada, validación binaria.
Ausencia de caché en RAG. Una aplicación que hace retrieval augmented generation sin caché de embeddings, sin caché de respuestas repetidas y sin prompt caching paga múltiples veces por el mismo trabajo. Los patrones de consulta habituales tienen distribuciones muy sesgadas donde el 20 % de las consultas produce el 80 % del tráfico; cachear esas consultas reduce la factura de forma drástica. Para el desglose detallado de caching en tokens, ver la guía de FinOps para tokens LLM en la empresa.
El bucle de evaluación con modelo caro. El equipo usa un modelo barato para la respuesta primaria y uno caro para validar. Parece razonable hasta que sumas que cada respuesta genera dos llamadas. Una validación basada en reglas simples o en un modelo pequeño específico para clasificación binaria funciona casi igual de bien al cinco por ciento del coste.
Controles que de verdad mueven la factura
Etiquetar llamadas por funcionalidad. Todas las llamadas a modelo deberían llevar metadatos de qué parte del producto las dispara, qué usuario las consume y en qué flujo están. Sin esto, no hay forma de saber si la subida de la factura viene de un cambio en producto, un pico de tráfico o un bug. Herramientas como Helicone, LangSmith o LangFuse agregan bien esta información para análisis posterior.
Presupuesto por funcionalidad con alertas automáticas. Cada componente que consume IA debería tener un techo mensual y una alerta cuando pase el 70 %. Cuando el agente mal configurado empieza a autorecursarse, lo descubres a los veinte minutos, no cuando llega la factura. El coste de montarlo es horas; el coste del primer incidente que habría evitado es mucho mayor.
Enrutador de modelos por complejidad. Clasificar cada petición en función de la dificultad antes de enviarla al modelo: consultas triviales al modelo pequeño, complejidad media al mediano, razonamiento multietapa al grande. Una heurística simple basada en longitud y tipo de consulta elimina la mayoría del sobregasto sin afectar calidad percibida. Herramientas como Martian, RouteLLM o LiteLLM hacen esto automáticamente con poca configuración.
GPUs: el otro frente
Para equipos que operan sus propios modelos, la gestión de GPUs es el segundo frente de FinOps. Las H200 y B200 reservadas en CoreWeave o Lambda cuestan entre tres y siete dólares por hora. Si la utilización media está por debajo del 50 %, se está tirando dinero. La práctica que funciona:
- Medir utilización real por minuto, no solo picos. La utilización media real suele ser mucho menor que la máxima.
- Consolidar cargas en menos GPUs mejor aprovechadas en lugar de repartirlas en muchas instancias pequeñas con holgura.
- Mercado spot para cargas tolerables a interrupciones: training jobs, inferencia de batch no sensible a latencia, generación periódica de embeddings. Los precios spot bajan entre un 40 y un 80 % respecto a reservados.
Para cargas mayores, el modelo híbrido combina GPUs reservadas para el pico de inferencia interactiva estable con bursts en nube pública para picos inesperados. La aritmética es la del autoescalado web clásico: dimensionar la base al 70-80 % del promedio esperado y absorber picos fuera.
Herramientas útiles
- OpenCost: referencia abierta para observabilidad de coste en Kubernetes, integra métricas de GPU vía DCGM Exporter de NVIDIA.
- Helicone: proxy ligero con agregación de costes por metadata, alertas y dashboard. Más barato y simple.
- LangSmith: mejor integración con el ecosistema LangChain.
- LangFuse: open source y self-hostable; buena opción para equipos con restricciones de datos.
- LiteLLM: proxy que normaliza llamadas a múltiples proveedores con routing, fallback y tracking de costes.
Conclusión
El FinOps para IA en 2026 no tiene nada de especialmente complicado, solo requiere hacer los controles habituales que la gente no hace. Etiquetar llamadas, presupuestar por funcionalidad, alertar antes del desastre, enrutar por complejidad, medir utilización de GPUs y usar el mercado spot para lo tolerable. Con estos seis controles, la mayoría de equipos reduce su factura entre un 30 y un 60 % sin perder calidad.
La resistencia habitual viene de que estos controles parecen burocracia que ralentiza el desarrollo, y en una cultura donde la IA se percibe como magia barata, nadie quiere ser el que pone el freno. Pero la factura llega cada mes, y cuando llega por primera vez con un sobrecoste del doble o del triple, la empresa entera descubre de golpe que necesitaba FinOps. Anticipar este momento con controles suaves desde el principio es mucho menos doloroso que implementarlos en modo crisis.
Última revisión: 2026-04-19.