Escrito por

CEO - Jacar Systems

Apasionado de la tecnología, la infraestructura cloud y la inteligencia artificial. Escribe sobre DevOps, IA, plataformas y software desde Madrid.

Desarrollo de Software Tecnología

apple silicon desarrolladores hardware ia inferencia local npu ryzen ai snapdragon

NPU para desarrolladores: qué se puede hacer ya

diciembre 5, 2025 11 min de lectura 148 lecturas

Índice de contenidos

Puntos clave
Qué hay en el mercado
La cadena de herramientas: ONNX Runtime como denominador común
Qué se puede hacer hoy
Dónde no compensa todavía
Ejemplo mínimo con ONNX Runtime
Mi lectura
Conclusión

Actualizado: 2026-05-03

Durante un par de años, la sigla NPU fue sobre todo una etiqueta en cajas de portátil y una casilla marcada en la especificación del procesador. En 2025 eso ha cambiado lo suficiente como para que merezca la pena hacer una revisión honesta: qué hardware hay disponible, qué herramientas permiten aprovecharlo desde código real, qué tipo de cargas compensan y cuáles siguen siendo mejor en CPU o GPU. El panorama no es uniforme ni está terminado, pero hay lo bastante para que un desarrollador pueda decidir con criterio si dedicar tiempo a integrar una NPU en un producto concreto.

Puntos clave

Las tres familias dominantes en portátiles son Qualcomm Snapdragon X (Elite y Plus), Apple Silicon de M1 en adelante y AMD Ryzen AI 300 con XDNA.
Los TOPS son un número fácil de comparar pero engañoso: lo que importa en práctica es la combinación de capacidad bruta, precisión soportada, ancho de banda de memoria y la pila de software disponible.
El denominador común más útil para desarrolladores que quieren cubrir varias plataformas es ONNX Runtime con sus proveedores de ejecución específicos por fabricante.
Los casos de uso mejor resueltos son visión ligera, transcripción de audio y modelos de lenguaje pequeños con cuantización INT4.
Ejecutar un modelo en NPU suele ser más lento que en GPU integrada para el primer arranque, porque hay coste de carga y compilación; el beneficio aparece en ejecuciones sucesivas.

Qué hay en el mercado

Las tres familias dominantes en portátiles son Qualcomm Snapdragon X (Elite y Plus), Apple Silicon de M1 en adelante y AMD Ryzen AI 300 con XDNA. Intel entró más tarde con los Core Ultra Meteor Lake y Lunar Lake, que incluyen su propia NPU pero con un ecosistema de software menos rodado. Las cifras que venden los fabricantes giran en torno a TOPS: 45 en Snapdragon X Elite, 38 en Apple M4, 50 en Ryzen AI 300 y 48 en Lunar Lake.

Los TOPS son un número fácil de comparar pero engañoso. Lo que importa en la práctica es la combinación de capacidad bruta, precisión soportada, ancho de banda de memoria y la pila de software disponible para llegar al silicio. Un chip con 45 TOPS teóricos y herramientas inmaduras entrega menos inferencia real que uno con 30 TOPS y una cadena de herramientas pulida.

La cadena de herramientas: ONNX Runtime como denominador común

El elemento que ha hecho realista hablar de NPU para desarrolladores es ONNX Runtime con sus proveedores de ejecución específicos por fabricante:

Para Qualcomm existe QNN EP.
Para Apple, CoreML EP.
Para AMD, el Vitis AI EP.
Para Intel, el OpenVINO EP.

Todos siguen el mismo patrón: tomar un modelo en formato ONNX y despachar parte del grafo a la NPU, dejando el resto en CPU o GPU.

Cada fabricante tiene también su cadena propia:

Apple ofrece Core ML con su compilador coremltools que convierte modelos desde PyTorch o ONNX.
AMD tiene Ryzen AI Software con un flujo basado en Vitis AI que compila modelos cuantizados a INT8.
Qualcomm proporciona el AI Engine Direct SDK con utilidades de conversión a su formato binario QNN.
Intel empuja OpenVINO, que además de su NPU soporta CPU y GPU integrada con la misma API.

La decisión práctica para un desarrollador que quiera cubrir varias plataformas es empezar con ONNX Runtime. Un modelo bien exportado a ONNX puede correr en CPU, GPU y las cuatro NPU principales con cambios mínimos en el código de inferencia. La cuantización a INT8 o INT4 es casi siempre necesaria: la mayoría de NPU están pensadas para enteros y sacar partido pleno exige reducir la precisión del modelo en la fase de exportación, no al cargarlo.

Qué se puede hacer hoy

El caso de uso mejor resuelto hoy es la inferencia de modelos de visión ligeros. Detección de objetos, clasificación de imágenes, segmentación, reconocimiento facial, todo eso corre bien en cualquier NPU actual con latencias de decenas de milisegundos y consumo significativamente menor que en la GPU integrada. Para aplicaciones de escritorio que procesan vídeo de cámara en tiempo real, la NPU es hoy la opción natural.

El segundo caso maduro es la transcripción de audio. Whisper en sus variantes pequeñas y medianas corre razonablemente bien en NPU tras la cuantización adecuada. Apple tiene soporte muy pulido de Whisper en el Neural Engine a través de Core ML; los demás fabricantes han ido llegando durante 2025 con niveles variables de calidad.

El tercer caso, más reciente y más ambicioso, son los modelos de lenguaje pequeños. Phi-3 Mini, Llama 3.2 1B y 3B, Qwen 2.5 de pocos miles de millones de parámetros y variantes cuantizadas a INT4 ya corren en las NPU actuales con un tokens por segundo que empieza a ser útil para resúmenes, corrección de texto o asistentes locales. No es el terreno donde una NPU de portátil compite con GPU de datacenter; es el terreno donde compite con ejecutar el mismo modelo en CPU, y ahí la NPU suele ganar claramente tanto en latencia como en energía.

Este tipo de inferencia local de modelos pequeños conecta directamente con los patrones que analizamos en observabilidad de agentes de IA: los agentes que corren partes de su pipeline localmente en la NPU necesitan instrumentación propia para entender qué porción del trabajo hace cada subsistema.

Dónde no compensa todavía

Los modelos grandes siguen siendo de GPU o CPU con memoria abundante. Un modelo de 13 mil millones de parámetros no cabe en la memoria accesible para la NPU de un portátil, o cabe muy cuantizado con calidad degradada. Lo mismo aplica a modelos de difusión grandes, a tareas de entrenamiento (ninguna NPU de consumo entrena hoy) y a cargas con control de flujo complejo que no se compila bien al grafo estático que la NPU espera.

Tampoco compensa cuando la inferencia se hace en servidor y el cliente solo hace petición HTTP. El terreno de la NPU es la inferencia local, y si tu arquitectura no contempla ejecución local, la NPU es un no-problema.

Un detalle que sorprende a quien se acerca por primera vez es que ejecutar un modelo en NPU suele ser más lento que en GPU integrada para el primer arranque, porque hay coste de carga y compilación. El beneficio aparece en ejecuciones sucesivas o en escenarios de larga duración, donde la eficiencia energética compensa la latencia inicial.

Ejemplo mínimo con ONNX Runtime

Para un desarrollador que quiera probar hoy, el camino corto es exportar un modelo a ONNX desde PyTorch, cuantizarlo y cargarlo con el proveedor de ejecución correspondiente:

python

import onnxruntime as ort
import numpy as np

# En un portátil Snapdragon X Elite
providers = [
    ("QNNExecutionProvider", {"backend_path": "QnnHtp.dll"}),
    "CPUExecutionProvider",
]
session = ort.InferenceSession("modelo_cuantizado.onnx", providers=providers)

entrada = np.random.randn(1, 3, 224, 224).astype(np.float32)
salida = session.run(None, {"input": entrada})

En Apple se cambia el proveedor a CoreMLExecutionProvider, en AMD a VitisAIExecutionProvider, en Intel a OpenVINOExecutionProvider. La idea es que el mismo modelo y casi el mismo código corran en las cuatro, y que si algo falla en la NPU el runtime caiga a CPU automáticamente. La realidad tiene más aristas, pero la abstracción es útil como punto de partida.

Mi lectura

Después de seguir el área durante dos años, las NPU de portátil son hoy una herramienta real pero no una solución mágica. Para casos concretos (visión ligera, audio, modelos de lenguaje pequeños) compensan claramente en latencia y en energía. Para casos grandes, no. La cadena de herramientas ha madurado lo bastante como para que un desarrollador con experiencia en inferencia pueda integrar una NPU en un producto en semanas, no en meses, siempre que acepte las limitaciones de la cuantización.

El punto ciego más frecuente que aparece en equipos es asumir que los números de TOPS se traducen directamente en rendimiento. No lo hacen. Lo que se traduce en rendimiento es la coincidencia entre el modelo, la cuantización, el grafo de operadores soportado y el ancho de banda de memoria disponible.

La dirección del viaje, sin embargo, es clara: cada generación de portátil reduce el coste de inferencia local, los modelos pequeños ganan capacidad y la NPU se consolida como el sitio natural para ejecutarlos. Lo que era marketing se está volviendo infraestructura; toca aprender a usarla.

Conclusión

Apuntar a la NPU en 2026 es una apuesta razonable para productos que quieran funcionar sin conexión o con baja latencia percibida. La evaluación correcta es siempre en el hardware objetivo, con el modelo propio y con datos reales; los benchmarks de fabricante son puntos de partida, no decisiones.

¿Te ha resultado útil?

[Total: 13 · Media: 4.4]

Post Views: 148

Escrito por

Javier Cañete

CEO - Jacar Systems

Apasionado de la tecnología, la infraestructura cloud y la inteligencia artificial. Escribe sobre DevOps, IA, plataformas y software desde Madrid.

Desarrollo de Software

Editores con IA en 2026: comparativa después de un año usándolos

Claude Code, Cursor, Aider, Copilot, Windsurf. Tras un año intenso con los principales editores asistidos por IA, esta es la comparativa que importa para quien elige hoy.

230 5 min abril 28, 2026

Desarrollo de Software

Herramientas de IA para desarrolladores: stack de 2026

El stack de herramientas IA que un desarrollador usa en 2026 es distinto al de hace dieciocho meses. Editores agénticos, herramientas de revisión, agentes de terminal y asistentes de pruebas se han estabilizado en roles reconocibles. Guía práctica por categoría.

165 13 min marzo 29, 2026 4,5

Desarrollo de Software

Rust en el kernel Linux: balance tras varios años

Cuatro años y medio después de la entrada oficial de Rust en el kernel Linux 6.1, con drivers reales de GPU Apple y NVMe en producción y tras varios conflictos mediáticos entre mantenedores, toca hacer balance técnico sin histrionismo. Qué funciona, qué cuesta y hacia dónde va la próxima fase.

141 11 min marzo 8, 2026 4,3

Desarrollo de Software

WASI preview 3: adopción y casos reales

WASI preview 3 llegó como estándar estable a finales de 2025 y ha tenido unos meses para demostrar si realmente desbloquea los casos que preview 2 se quedaba cortos. Recorrido honesto por adopciones reales, bibliotecas maduras y patrones que empiezan a funcionar en producción.

246 13 min febrero 6, 2026 4,6

NPU para desarrolladores: qué se puede hacer ya

Puntos clave

Qué hay en el mercado

La cadena de herramientas: ONNX Runtime como denominador común

Qué se puede hacer hoy

Dónde no compensa todavía

Ejemplo mínimo con ONNX Runtime

Mi lectura

Conclusión

Entradas relacionadas

Editores con IA en 2026: comparativa después de un año usándolos

Herramientas de IA para desarrolladores: stack de 2026

Rust en el kernel Linux: balance tras varios años

WASI preview 3: adopción y casos reales