Un proxy con caché delante de un modelo de lenguaje puede reducir la factura de tokens de forma significativa, pero introduce riesgos sutiles si el diseño no es cuidadoso. Analizo qué tipos de caché funcionan en producción, dónde están las trampas habituales y cómo integrarlo sin degradar la experiencia del usuario.
Leer másEtiqueta: coste tokens
Enrutadores de inferencia: elegir modelo según la petición
Un enrutador de inferencia decide qué modelo atiende cada petición en función de coste, latencia y complejidad. En 2025 son una pieza común en despliegues serios con varios modelos detrás, y bien diseñados reducen factura de tokens sin que el usuario perciba degradación; mal diseñados introducen fallos sutiles difíciles de depurar.
Leer más