Hace tres años las NPU eran una casilla marginal en la hoja de especificaciones de un portátil. Hoy son el componente que más define la experiencia real cuando ejecutas modelos locales para transcripción, resumen, generación de imágenes o asistencia de código. El salto ha ocurrido más rápido de lo previsto y el mapa del hardware en 2026 es muy diferente al de 2024. Este repaso pone orden en los actores principales, mide dónde están las NPU frente a la GPU tradicional y señala cuándo compensa elegir una máquina pensada para IA local.
Qué es realmente una NPU
Una NPU (Neural Processing Unit) es un acelerador diseñado específicamente para las operaciones que dominan la inferencia de redes neuronales: multiplicaciones matriz-matriz, convoluciones y activaciones. A diferencia de la GPU, que es un acelerador generalista de cómputo paralelo, la NPU sacrifica versatilidad a cambio de rendimiento por vatio mucho mayor en su dominio acotado. Eso la hace ideal para cargas continuas o de baja latencia en dispositivos con presupuesto térmico limitado.
La métrica que más se publica es TOPS (tera-operaciones por segundo) en precisión INT8 o FP16. Es útil como orden de magnitud pero engaña si se usa sola, porque no captura el ancho de banda de memoria disponible ni la eficiencia del compilador que traduce el modelo a instrucciones del acelerador. Un chip con 40 TOPS y compilador maduro rinde más en la práctica que uno de 50 TOPS con soporte software pobre.
El otro factor que importa es la memoria unificada. Las NPU que comparten memoria con CPU y GPU evitan copias costosas cuando el pipeline combina varias etapas, algo cada vez más habitual porque los modelos reales rara vez son una sola red neuronal aislada.
Los cuatro actores que dominan 2026
El panorama de consumo se ha consolidado en cuatro familias principales. Cada una tiene características propias y una posición clara en el mercado.
Apple Neural Engine
Apple lleva la delantera en coherencia de ecosistema. El Neural Engine de los M4 y M5 alcanza cifras de 38 a 45 TOPS según variante, con memoria unificada compartida con CPU y GPU y con una cadena de herramientas (Core ML, MLX, Metal) que permite a los desarrolladores mover cargas entre aceleradores sin reescribir código. Los modelos Phi-3, Llama 3.2, Mistral Small y Gemma 2 se ejecutan cómodamente en Mac de consumo con latencias por debajo de los cien milisegundos por token.
El punto débil sigue siendo la versatilidad: el Neural Engine acepta bien las arquitecturas estándar pero es más rígido que una GPU NVIDIA cuando el modelo tiene operadores poco habituales. Para producción local sobre modelos maduros, la combinación de rendimiento, eficiencia y software es la más sólida del mercado.
Qualcomm Hexagon NPU
Qualcomm ha pasado de ser el líder discreto en móvil a ser el actor que define IA local en portátiles Windows ARM con los Snapdragon X Elite y X2. La NPU Hexagon alcanza 45 TOPS en la generación actual y el stack AI Engine Direct integra bien con ONNX Runtime, DirectML y el nuevo Windows ML. En la práctica, un portátil con Snapdragon X2 ejecuta modelos de 7 a 13 mil millones de parámetros con autonomía superior a un portátil x86 con GPU discreta equivalente para cargas continuas.
El reto de Qualcomm es el software. Los drivers maduraron durante 2025 pero aún aparecen inconsistencias con frameworks menos populares, y la fragmentación entre el stack nativo QNN y las API de Microsoft requiere atención del desarrollador.
Intel NPU 4 en Core Ultra
Intel ha hecho un salto notable con la NPU 4 incluida en Core Ultra 300. Pasó de los 11 TOPS de la primera generación (2023) a 48 TOPS con mejoras importantes en ancho de banda y en el compilador OpenVINO. La apuesta clara de Intel es que el desarrollador no tenga que elegir entre CPU, GPU integrada o NPU: el runtime OpenVINO decide la ruta óptima según el modelo y el estado térmico.
En la práctica, la NPU 4 compite bien con el Neural Engine de Apple en cargas estándar aunque queda por detrás en eficiencia energética durante inferencia continua larga. Para entornos corporativos con flota Windows mayoritaria, Intel ha vuelto a ser opción razonable después de algunos años de retraso.
AMD XDNA2 en Ryzen AI
AMD entró más tarde al segmento NPU pero la XDNA2 integrada en Ryzen AI 300 y 400 llegó con 50 TOPS y buen soporte en ROCm y ONNX. La memoria unificada entre CPU, GPU Radeon integrada y NPU funciona bien para pipelines híbridos, y el ecosistema de software se ha profesionalizado lo suficiente como para tratar a AMD como opción viable y no solo alternativa barata.
El punto más fuerte de AMD es el rendimiento por euro: en portátiles de gama media los Ryzen AI 350 ofrecen capacidad de inferencia comparable a soluciones más caras con ventaja clara en precio final.
Qué cargas compensan en NPU
No todas las cargas de IA son iguales. Hay tres tipos donde la NPU es claramente la mejor opción en 2026. Primero, inferencia continua de baja latencia: transcripción de voz, cancelación de ruido en llamadas, efectos de cámara en tiempo real. Son cargas que corren durante horas y donde el rendimiento por vatio de la NPU aplasta a la GPU.
Segundo, modelos pequeños y medianos (hasta 13 mil millones de parámetros en INT4) que caben en la memoria del dispositivo. La NPU los ejecuta con latencia baja y sin calentar el portátil. Para asistentes locales, traducción o generación de texto corta, la experiencia es cualitativamente distinta a enviar cada petición a la nube.
Tercero, inferencia sensible a la privacidad donde el dato no puede salir del dispositivo por razones legales o contractuales. Aquí la NPU es habilitador directo, no solo optimización.
Donde la NPU pierde sigue siendo entrenamiento, modelos muy grandes (más de 30 mil millones de parámetros) y cargas con operadores no estándar. Para eso sigue mandando la GPU NVIDIA o los aceleradores dedicados de datacenter.
Un código de ejemplo
from transformers import pipeline
import torch
# El backend se elige según plataforma: "coreml" (Apple),
# "qnn" (Qualcomm), "openvino" (Intel) o "rocm" (AMD).
pipe = pipeline(
"text-generation",
model="microsoft/Phi-3-mini-4k-instruct",
device="npu",
torch_dtype=torch.int8,
)
respuesta = pipe("Resume el siguiente texto...", max_new_tokens=128)
El runtime decide la ruta real. Lo que antes exigía código específico por familia de hardware empieza a ocultarse detrás de abstracciones comunes razonables.
Mi lectura
Las NPU han cruzado la línea que separa novedad marginal de componente decisivo. En 2026 un portátil sin NPU competente es un portátil viejo, no uno sin extras. Para desarrollador de aplicaciones, la decisión ya no es si incorporar IA local sino qué runtime usar para que el código aproveche el acelerador disponible sin ramas específicas por fabricante.
Lo que sigue abierto es la consolidación del software. Cada fabricante mantiene su stack nativo junto a una API común que funciona pero no siempre saca el máximo. En la práctica, los equipos que publican aplicaciones con IA local están tomando decisiones pragmáticas: usar ONNX Runtime con el proveedor de ejecución correspondiente, añadir una capa específica para Apple por Core ML, y aceptar que la portabilidad perfecta tardará aún un par de años. Esa fricción no es gratis pero es mucho menor que la que había hace 18 meses.