Phi-3 es la apuesta pública de Microsoft Research en modelos pequeños de lenguaje, una familia que arrancó con Phi-1 a finales de 2023 centrada en código y que ha ido creciendo hasta convertirse, con las versiones 3 y 3.5 lanzadas durante 2024 y actualizadas en 2025, en una pieza central del panorama de modelos que caben en el edge. Después de dieciocho meses de uso público, múltiples variantes, integración con ONNX Runtime y cuantizaciones oficiales, es un buen momento para hacer un repaso honesto de dónde encaja Phi-3 en 2025 y cuándo tiene sentido elegirlo frente a alternativas como Llama 3.2, Gemma 2 o Qwen 2.5.
Qué es Phi-3 y qué lo hace distinto
Phi-3 es en realidad una familia con varias variantes. La pequeña, Phi-3-mini, tiene 3.800 millones de parámetros; la media, Phi-3-small, tiene 7.000 millones; la grande, Phi-3-medium, 14.000 millones; y Phi-3.5 introdujo además una variante con visión (Phi-3.5-vision) y una variante de mezcla de expertos (Phi-3.5-MoE) con 42.000 millones totales pero solo 6.600 millones activos. Todas están publicadas bajo licencia MIT, lo que las hace aptas para uso comercial sin matices extraños.
La propuesta técnica que distingue a Phi-3 del resto es el enfoque en calidad de datos de entrenamiento. Microsoft publicó un artículo titulado “Textbooks Are All You Need” donde argumentaba que un corpus cuidadosamente curado, con contenido tipo libro de texto y ejemplos sintéticos bien filtrados, permitía entrenar modelos pequeños con capacidades sorprendentes. La idea no era nueva pero Phi-3 la llevó a escala con resultados medibles: un Phi-3-mini de 3.800 millones alcanzaba en las pruebas estándar resultados comparables a modelos de 7.000 u 8.000 millones de otras familias.
Esa propuesta tiene un matiz relevante. Los resultados fuertes en las pruebas académicas no se trasladaban con la misma intensidad al uso real, especialmente en tareas abiertas de conversación o razonamiento multi-paso. Phi-3 es un modelo muy bueno cuando el caso de uso se acerca a los datos con los que fue entrenado: tareas estructuradas, razonamiento lógico acotado, respuesta a preguntas sobre texto corto. Es más débil cuando se le pide creatividad abierta o conocimiento de nicho que no estaba en su corpus.
El caso del edge
El interés real de Phi-3 está en el edge. Un modelo de 3.800 millones de parámetros cuantizado a 4 bits ocupa unos 2 GB, cabe en la memoria de un teléfono moderno y se puede ejecutar con latencia razonable en una CPU con unidad neuronal, en una GPU integrada o incluso en una unidad de procesamiento neuronal dedicada. Microsoft ha trabajado duro en la integración con ONNX Runtime y con Windows DirectML para que Phi-3-mini se ejecute de forma nativa en Windows 11, y Apple ha mostrado arquitecturas similares con sus modelos internos.
Esta capacidad cambia el cálculo económico de muchos casos de uso. Funciones como transcripción asistida, resumen de mensajes, sugerencias contextuales o clasificación de texto dejan de requerir una llamada a una API de pago y pueden resolverse localmente. El usuario no paga por cada invocación, la latencia baja a decenas de milisegundos y los datos no salen del dispositivo, lo que simplifica enormemente el cumplimiento con RGPD y normativas similares.
Durante 2025 hemos visto esto materializarse en productos reales. Microsoft 365 integra Phi-3 para operaciones ligeras en el cliente. Ollama y LM Studio soportan Phi-3 con un solo comando. Las distribuciones de Linux con aceleración NPU empiezan a ofrecer Phi-3 como modelo por defecto para asistentes locales. El ecosistema es ya maduro lo suficiente como para construir productos comerciales.
Dónde compensa Phi-3 frente a alternativas
La decisión interesante en 2025 no es si usar un SLM en el edge, sino cuál. El campo está competido. Llama 3.2 de Meta ofrece variantes de 1B y 3B con buen rendimiento general y ecosistema enorme. Gemma 2 de Google tiene versiones de 2B y 9B con calidad muy sólida. Qwen 2.5 de Alibaba ha irrumpido con versiones pequeñas muy buenas en idiomas no ingleses, incluyendo español. Mistral mantiene modelos pequeños competentes. La elección depende del caso.
Phi-3 brilla especialmente en tareas que requieren razonamiento estructurado o generación de código corto. Su entrenamiento sintético con énfasis en problemas matemáticos, ejemplos de código y razonamiento paso a paso le da una ventaja en esos dominios. Si tu caso de uso es un asistente que responda preguntas estructuradas sobre documentos, genere fragmentos de código o razone sobre reglas formales, Phi-3-mini o Phi-3-small son candidatos fuertes.
Donde Phi-3 se queda corto es en idiomas distintos del inglés con matices regionales, en conocimiento enciclopédico profundo y en conversación abierta con fluidez natural. Para esos casos, Qwen 2.5 o Llama 3.2 suelen rendir mejor. La práctica realista es probar los dos o tres candidatos con el caso concreto y medir, porque las pruebas académicas dan una señal pero no se traducen directamente a calidad percibida en aplicación.
Integración práctica con ONNX Runtime
Uno de los aspectos mejor resueltos de Phi-3 es el camino oficial para integración. Microsoft publica versiones ONNX optimizadas para DirectML (Windows), CUDA (NVIDIA), CoreML (Apple) y CPU pura, todas en su organización de Hugging Face. Esto significa que un desarrollador puede cargar el modelo con onnxruntime-genai y tener inferencia razonable sin pelearse con cuantización manual o conversión de pesos.
import onnxruntime_genai as og
modelo = og.Model("./phi-3-mini-4k-instruct-onnx/cpu")
tokenizador = og.Tokenizer(modelo)
prompt = "Explica brevemente qué es TLS 1.3."
entradas = tokenizador.encode(prompt)
opciones = og.GeneratorParams(modelo)
opciones.set_search_options(max_length=200)
opciones.input_ids = entradas
generador = og.Generator(modelo, opciones)
while not generador.is_done():
generador.compute_logits()
generador.generate_next_token()
print(tokenizador.decode(generador.get_next_tokens()[0]), end="")
El código no es muy distinto del patrón habitual con transformers, pero el proceso de compilación y optimización para el dispositivo concreto está ya hecho por Microsoft. Para un teléfono o un equipo con NPU, esto ahorra semanas de trabajo de optimización.
Limitaciones y cautelas
Conviene ser realista con las limitaciones. La ventana de contexto original de Phi-3-mini era de 4.000 tokens; la variante extendida llegó a 128.000 pero con degradación de calidad medible más allá de 32.000. Esto limita aplicaciones que necesiten ingerir documentos largos completos. Phi-3-small y Phi-3-medium mejoran pero siguen por debajo de lo que ofrecen modelos mucho mayores.
La segunda limitación es la fiabilidad factual. Los SLM tienden a alucinar más que los LLM grandes cuando se les preguntan hechos específicos. Para aplicaciones que toquen contenido factual, la práctica correcta sigue siendo combinarlos con RAG: el modelo razona y genera, pero los hechos vienen de una búsqueda en un corpus fiable. Sin RAG, Phi-3 genera texto coherente pero con probabilidad preocupante de inexactitudes.
La tercera es el soporte del español. Phi-3 fue entrenado mayoritariamente en inglés y aunque genera español comprensible, la calidad no alcanza la de modelos específicamente entrenados en multilingüe como Qwen o los modelos de Mistral afinados para francés e idiomas latinos. Para un asistente comercial en español, merece la pena evaluar alternativas.
Mi lectura
La conclusión tras seguir la evolución de Phi-3 durante 2024 y 2025 es que Microsoft ha colocado un producto legítimo y útil en un espacio competido. No es el mejor SLM en todos los ejes, pero es el que mejor integración tiene con el ecosistema Microsoft, una ventaja operativa seria si tu pila es Windows o Azure. Para tareas razonadas y código, es competitivo. Para multilingüe o conversación abierta, hay alternativas mejores.
El punto más importante es que el edge como lugar para ejecutar modelos de lenguaje ha pasado de ser una curiosidad de 2023 a ser una realidad productiva en 2025. Phi-3 no es el único motor posible, pero es uno de los más pulidos, con licencia abierta y con integración industrial seria. Para un equipo que arranca un proyecto con componente de lenguaje y quiere evitar dependencia de una API externa, empezar probando Phi-3-mini en local antes de comprometerse con una solución de pago es una disciplina que en 2025 rinde bien. Puede que la respuesta final sea pagar por una API externa porque la calidad lo justifica, pero haber probado la alternativa local pone límites sanos a cuánto estás dispuesto a pagar y cuándo realmente vale la pena.