Tecnología

#apple silicon #hardware ia #inferencia #inferencia local #intel #npu #qualcomm #rendimiento

NPU de nueva generación: el hardware que mueve IA en 2026

17 de marzo de 2026 7 min 2,4K 4,8

Unidad de procesamiento tensorial en rack de servidor, representación del hardware acelerador de nueva generación para inferencia de IA

Índice de contenidos

Puntos clave
Qué es realmente una NPU
Los cuatro actores que dominan 2026
Apple y su Neural Engine
Qualcomm y su Hexagon NPU
Intel NPU 5 en Core Ultra 300
AMD y su XDNA2 en Ryzen AI
Qué cargas compensan en NPU
Un código de ejemplo
Mi lectura
Fuentes

Actualizado: 2026-07-07

Hace tres años las NPU eran una casilla marginal en la hoja de especificaciones de un portátil. Hoy son el componente que más define la experiencia real cuando ejecutas modelos locales para transcripción, resumen, generación de imágenes o asistencia de código. El salto ha ocurrido más rápido de lo previsto y el mapa del hardware en 2026 es muy diferente al de 2024.

Puntos clave

Una NPU sacrifica versatilidad por rendimiento por vatio: ideal para inferencia continua, no para entrenamiento.
La métrica TOPS engaña si se usa sola; el compilador y el ancho de banda de memoria determinan el rendimiento real.
Apple, Qualcomm, Intel y AMD concentran los cuatro grandes ecosistemas de NPU de consumo.
Inferencia continua, modelos hasta 13B parámetros y datos sensibles que no pueden salir del dispositivo son los tres casos de uso estrella.
La GPU NVIDIA sigue mandando en entrenamiento y modelos grandes (más de 30B).

Qué es realmente una NPU

Una NPU (Neural Processing Unit) es un acelerador diseñado específicamente para las operaciones que dominan la inferencia de redes neuronales: multiplicaciones matriz-matriz, convoluciones y activaciones. A diferencia de la GPU, que es un acelerador generalista de cómputo paralelo, la NPU sacrifica versatilidad a cambio de rendimiento por vatio mucho mayor en su dominio acotado. Eso la hace ideal para cargas continuas o de baja latencia en dispositivos con presupuesto térmico limitado.

La métrica que más se publica es TOPS (tera-operaciones por segundo) en precisión INT8 o FP16. Es útil como orden de magnitud pero engaña si se usa sola: no captura el ancho de banda de memoria disponible ni la eficiencia del compilador que traduce el modelo a instrucciones del acelerador. Un chip con 40 TOPS y compilador maduro rinde más en la práctica que uno de 50 TOPS con soporte software pobre.

El otro factor que importa es la memoria unificada. Las NPU que comparten memoria con CPU y GPU evitan copias costosas cuando el pipeline combina varias etapas, algo cada vez más habitual porque los modelos reales rara vez son una sola red neuronal aislada.

Los cuatro actores que dominan 2026

El mercado de consumo se ha consolidado en cuatro familias principales, cada una con características propias y una posición clara frente a las demás.

Apple y su Neural Engine

Apple lleva la delantera en coherencia de ecosistema. El Neural Engine de 16 núcleos del M4 alcanza 38 TOPS de forma oficial^[1], con memoria unificada compartida con CPU y GPU. El M5 no publica una cifra de TOPS propia, pero suma un acelerador neuronal dentro de cada núcleo de GPU, así que buena parte de la inferencia se reparte fuera del Neural Engine clásico. La cadena de herramientas (Core ML, MLX, Metal) permite a los desarrolladores mover cargas entre aceleradores sin reescribir código, y modelos como Phi-3, Llama 3.2, Mistral Small o Gemma 2 corren cómodamente en un Mac de consumo con latencias por debajo de los 100 ms por token.

El punto débil sigue siendo la versatilidad: el Neural Engine acepta bien las arquitecturas estándar pero es más rígido que una GPU NVIDIA cuando el modelo tiene operadores poco habituales.

Qualcomm y su Hexagon NPU

Qualcomm ha pasado de ser el líder discreto en móvil a ser el actor que define IA local en portátiles Windows ARM. El primer Snapdragon X Elite (2024) traía una NPU Hexagon de 45 TOPS; la generación X2 Elite, lanzada en el CES de enero de 2026, la eleva hasta 80 TOPS^[2] con la Hexagon NPU de sexta generación. El stack AI Engine Direct integra bien con ONNX Runtime, DirectML y el nuevo Windows ML. En la práctica, un portátil con Snapdragon X2 Elite ejecuta modelos de 7 a 13 mil millones de parámetros con autonomía superior a un portátil x86 equivalente con GPU discreta para cargas continuas.

El reto de Qualcomm es el software: los drivers maduraron durante 2025 pero aún aparecen inconsistencias con frameworks menos populares.

Intel NPU 5 en Core Ultra 300

Intel ha hecho un salto notable con la NPU 5 incluida en Core Ultra 300 (nombre en clave Panther Lake, presentado en el CES de enero de 2026): pasó de los 11 TOPS de la primera generación Meteor Lake (2023) a los 50 TOPS^[3] de la NPU 5 actual, con mejoras importantes en ancho de banda y en el compilador OpenVINO. La apuesta clara de Intel es que el desarrollador no tenga que elegir entre CPU, GPU integrada o NPU: el runtime OpenVINO decide la ruta óptima según el modelo y el estado térmico.

La NPU 5 compite bien con el Neural Engine de Apple en cargas estándar, aunque queda por detrás en eficiencia energética durante inferencia continua larga. Para entornos corporativos con flota Windows mayoritaria, Intel ha vuelto a ser opción razonable.

AMD y su XDNA2 en Ryzen AI

AMD entró más tarde al segmento NPU, pero la XDNA2 integrada en Ryzen AI 300 (2024) ya llegó con 50 TOPS^[4] y buen soporte en ROCm y ONNX; la variante Ryzen AI 9 HX 375 sube a 55 TOPS. La familia Ryzen AI 400 (2026) mantiene la misma arquitectura XDNA2 pero empuja hasta 60 TOPS en los modelos móviles. La memoria unificada entre CPU, GPU Radeon integrada y NPU funciona bien para pipelines híbridos, y el ecosistema de software se ha profesionalizado lo suficiente. El punto más fuerte de AMD es el rendimiento por euro: en portátiles de gama media los Ryzen AI 350 ofrecen capacidad de inferencia comparable a soluciones más caras, con ventaja clara en precio final, un patrón parecido al que ya vimos con ONNX Runtime en el edge en otros ecosistemas ARM.

Comparativa de arquitecturas NPU en portátiles de consumo 2025-2026: Apple M4, Qualcomm Snapdragon X, Intel Core Ultra 300 y AMD Ryzen AI

Qué cargas compensan en NPU

No todas las cargas de IA son iguales. Tres tipos son claramente los mejores casos de uso para NPU:

Inferencia continua de baja latencia: transcripción de voz, cancelación de ruido en llamadas, efectos de cámara en tiempo real. Son cargas que corren durante horas y donde el rendimiento por vatio de la NPU aplasta a la GPU.

Modelos pequeños y medianos (hasta 13B parámetros en INT4) que caben en la memoria del dispositivo. La NPU los ejecuta con latencia baja sin calentar el portátil. Para asistentes locales, traducción o generación de texto corta, la experiencia es cualitativamente distinta a enviar cada petición a la nube.

Inferencia sensible a la privacidad donde el dato no puede salir del dispositivo por razones legales o contractuales. Aquí la NPU es habilitador directo, no solo optimización.

Donde la NPU pierde sigue siendo entrenamiento, modelos muy grandes (más de 30B parámetros) y cargas con operadores no estándar. Para eso sigue mandando la GPU NVIDIA o los aceleradores dedicados de datacenter.

Un código de ejemplo

from transformers import pipeline
import torch

# El backend se elige según plataforma: "coreml" (Apple),
# "qnn" (Qualcomm), "openvino" (Intel) o "rocm" (AMD).
pipe = pipeline(
    "text-generation",
    model="microsoft/Phi-3-mini-4k-instruct",
    device="npu",
    torch_dtype=torch.int8,
)

respuesta = pipe("Resume el siguiente texto...", max_new_tokens=128)

El runtime decide la ruta real. Lo que antes exigía código específico por familia de hardware empieza a ocultarse detrás de abstracciones comunes razonables.

Mi lectura

Las NPU han cruzado la línea que separa novedad marginal de componente decisivo. En 2026 un portátil sin NPU competente es un portátil viejo, no uno sin extras. Para desarrolladores de aplicaciones, la decisión ya no es si incorporar IA local sino qué runtime usar para que el código aproveche el acelerador disponible sin ramas específicas por fabricante.

Lo que sigue abierto es la consolidación del software. Los equipos que publican aplicaciones con IA local están tomando decisiones pragmáticas: usar ONNX Runtime con el proveedor de ejecución correspondiente, añadir una capa específica para Apple por Core ML, y aceptar que la portabilidad perfecta tardará aún un par de años. Quien ya evaluó NPU para desarrolladores o comparó opciones en NPU en el PC reconocerá el mismo dilema entre rendimiento por vatio y madurez del software.

Este artículo también está disponible en inglés.

NPU de nueva generación: el hardware que mueve IA en 2026

Puntos clave

Qué es realmente una NPU

Los cuatro actores que dominan 2026

Apple y su Neural Engine

Qualcomm y su Hexagon NPU

Intel NPU 5 en Core Ultra 300

AMD y su XDNA2 en Ryzen AI

Qué cargas compensan en NPU

Un código de ejemplo

Mi lectura

Fuentes

Comparte este artículo

¿Te ha resultado útil este artículo?

Entradas relacionadas

NIS2 en España: traducción técnica de las obligaciones para 2026

Observabilidad de agentes con OpenTelemetry GenAI semconv en 2026

Cómo instalar oMLX en M5 Max 128 GB y exprimirlo al máximo

Software esencial para tu nuevo Mac M5 (guía 2026)