Mascota Jacar — leyendo contigo Un portátil cuyos ojos siguen el cursor mientras lees.
Tecnología

NPU de nueva generación: el hardware que mueve IA en 2026

NPU de nueva generación: el hardware que mueve IA en 2026

Actualizado: 2026-05-03

Hace tres años las NPU eran una casilla marginal en la hoja de especificaciones de un portátil. Hoy son el componente que más define la experiencia real cuando ejecutas modelos locales para transcripción, resumen, generación de imágenes o asistencia de código. El salto ha ocurrido más rápido de lo previsto y el mapa del hardware en 2026 es muy diferente al de 2024.

Puntos clave

  • Una NPU sacrifica versatilidad por rendimiento por vatio: ideal para inferencia continua, no para entrenamiento.
  • La métrica TOPS engaña si se usa sola; el compilador y el ancho de banda de memoria determinan el rendimiento real.
  • Apple, Qualcomm, Intel y AMD concentran los cuatro grandes ecosistemas de NPU de consumo.
  • Inferencia continua, modelos hasta 13B parámetros y datos sensibles que no pueden salir del dispositivo son los tres casos de uso estrella.
  • La GPU NVIDIA sigue mandando en entrenamiento y modelos grandes (más de 30B).

Qué es realmente una NPU

Una NPU (Neural Processing Unit) es un acelerador diseñado específicamente para las operaciones que dominan la inferencia de redes neuronales: multiplicaciones matriz-matriz, convoluciones y activaciones. A diferencia de la GPU, que es un acelerador generalista de cómputo paralelo, la NPU sacrifica versatilidad a cambio de rendimiento por vatio mucho mayor en su dominio acotado. Eso la hace ideal para cargas continuas o de baja latencia en dispositivos con presupuesto térmico limitado.

La métrica que más se publica es TOPS (tera-operaciones por segundo) en precisión INT8 o FP16. Es útil como orden de magnitud pero engaña si se usa sola: no captura el ancho de banda de memoria disponible ni la eficiencia del compilador que traduce el modelo a instrucciones del acelerador. Un chip con 40 TOPS y compilador maduro rinde más en la práctica que uno de 50 TOPS con soporte software pobre.

El otro factor que importa es la memoria unificada. Las NPU que comparten memoria con CPU y GPU evitan copias costosas cuando el pipeline combina varias etapas, algo cada vez más habitual porque los modelos reales rara vez son una sola red neuronal aislada.

Los cuatro actores que dominan 2026

El panorama de consumo se ha consolidado en cuatro familias principales, cada una con características propias y una posición clara en el mercado.

Apple Neural Engine

Apple lleva la delantera en coherencia de ecosistema. El Neural Engine de los M4 y M5 alcanza 38-45 TOPS según variante, con memoria unificada compartida con CPU y GPU, y con una cadena de herramientas (Core ML, MLX, Metal) que permite a los desarrolladores mover cargas entre aceleradores sin reescribir código. Phi-3, Llama 3.2, Mistral Small y Gemma 2 se ejecutan cómodamente en Mac de consumo con latencias por debajo de los 100 ms por token.

El punto débil sigue siendo la versatilidad: el Neural Engine acepta bien las arquitecturas estándar pero es más rígido que una GPU NVIDIA cuando el modelo tiene operadores poco habituales.

Qualcomm Hexagon NPU

Qualcomm ha pasado de ser el líder discreto en móvil a ser el actor que define IA local en portátiles Windows ARM con los Snapdragon X Elite y X2. La NPU Hexagon alcanza 45 TOPS en la generación actual y el stack AI Engine Direct integra bien con ONNX Runtime, DirectML y el nuevo Windows ML. En la práctica, un portátil con Snapdragon X2 ejecuta modelos de 7 a 13 mil millones de parámetros con autonomía superior a un portátil x86 con GPU discreta equivalente para cargas continuas.

El reto de Qualcomm es el software: los drivers maduraron durante 2025 pero aún aparecen inconsistencias con frameworks menos populares.

Intel NPU 4 en Core Ultra

Intel ha hecho un salto notable con la NPU 4 incluida en Core Ultra 300: pasó de los 11 TOPS de la primera generación (2023) a 48 TOPS con mejoras importantes en ancho de banda y en el compilador OpenVINO. La apuesta clara de Intel es que el desarrollador no tenga que elegir entre CPU, GPU integrada o NPU: el runtime OpenVINO decide la ruta óptima según el modelo y el estado térmico.

La NPU 4 compite bien con el Neural Engine de Apple en cargas estándar, aunque queda por detrás en eficiencia energética durante inferencia continua larga. Para entornos corporativos con flota Windows mayoritaria, Intel ha vuelto a ser opción razonable.

AMD XDNA2 en Ryzen AI

AMD entró más tarde al segmento NPU pero la XDNA2 integrada en Ryzen AI 300 y 400 llegó con 50 TOPS y buen soporte en ROCm y ONNX. La memoria unificada entre CPU, GPU Radeon integrada y NPU funciona bien para pipelines híbridos, y el ecosistema de software se ha profesionalizado suficientemente. El punto más fuerte de AMD es el rendimiento por euro: en portátiles de gama media los Ryzen AI 350 ofrecen capacidad de inferencia comparable a soluciones más caras con ventaja clara en precio final.

Comparativa de arquitecturas NPU en portátiles de consumo 2025-2026: Apple M4, Qualcomm Snapdragon X, Intel Core Ultra 300 y AMD Ryzen AI

Qué cargas compensan en NPU

No todas las cargas de IA son iguales. Tres tipos son claramente los mejores casos de uso para NPU:

  1. Inferencia continua de baja latencia: transcripción de voz, cancelación de ruido en llamadas, efectos de cámara en tiempo real. Son cargas que corren durante horas y donde el rendimiento por vatio de la NPU aplasta a la GPU.

  2. Modelos pequeños y medianos (hasta 13B parámetros en INT4) que caben en la memoria del dispositivo. La NPU los ejecuta con latencia baja sin calentar el portátil. Para asistentes locales, traducción o generación de texto corta, la experiencia es cualitativamente distinta a enviar cada petición a la nube.

  3. Inferencia sensible a la privacidad donde el dato no puede salir del dispositivo por razones legales o contractuales. Aquí la NPU es habilitador directo, no solo optimización.

Donde la NPU pierde sigue siendo entrenamiento, modelos muy grandes (más de 30B parámetros) y cargas con operadores no estándar. Para eso sigue mandando la GPU NVIDIA o los aceleradores dedicados de datacenter.

Un código de ejemplo

python
from transformers import pipeline
import torch

# El backend se elige según plataforma: "coreml" (Apple),
# "qnn" (Qualcomm), "openvino" (Intel) o "rocm" (AMD).
pipe = pipeline(
    "text-generation",
    model="microsoft/Phi-3-mini-4k-instruct",
    device="npu",
    torch_dtype=torch.int8,
)

respuesta = pipe("Resume el siguiente texto...", max_new_tokens=128)

El runtime decide la ruta real. Lo que antes exigía código específico por familia de hardware empieza a ocultarse detrás de abstracciones comunes razonables.

Mi lectura

Las NPU han cruzado la línea que separa novedad marginal de componente decisivo. En 2026 un portátil sin NPU competente es un portátil viejo, no uno sin extras. Para desarrolladores de aplicaciones, la decisión ya no es si incorporar IA local sino qué runtime usar para que el código aproveche el acelerador disponible sin ramas específicas por fabricante.

Lo que sigue abierto es la consolidación del software. Los equipos que publican aplicaciones con IA local están tomando decisiones pragmáticas: usar ONNX Runtime con el proveedor de ejecución correspondiente, añadir una capa específica para Apple por Core ML, y aceptar que la portabilidad perfecta tardará aún un par de años.

¿Te ha resultado útil?
[Total: 10 · Media: 4.8]

Escrito por

CEO - Jacar Systems

Apasionado de la tecnología, la infraestructura cloud y la inteligencia artificial. Escribe sobre DevOps, IA, plataformas y software desde Madrid.