Un enrutador de inferencia decide qué modelo atiende cada petición en función de coste, latencia y complejidad. En 2025 son una pieza común en despliegues serios con varios modelos detrás, y bien diseñados reducen factura de tokens sin que el usuario perciba degradación; mal diseñados introducen fallos sutiles difíciles de depurar.
Leer más