Inference routers: choosing a model based on the request

Un enrutador de inferencia decide qué modelo atiende cada petición en función de coste, latencia y complejidad. Bien diseñados reducen la factura de tokens sin que el usuario perciba degradación; mal diseñados introducen fallos sutiles difíciles de depurar.

LiteLLM: A Proxy to Unify Model Providers

Cuando una aplicación habla con dos o más proveedores de LLM, antes o después aparece un proxy entre medias. LiteLLM propone uno concreto, y esta es la lectura honesta de qué gana y qué cuesta.