El año pasado, hablar de NPU en un PC normal era una rareza. Hoy, si compras un portátil de gama media, lo más probable es que lo traiga. Qualcomm lo metió primero con los Snapdragon X, Intel siguió con Lunar Lake, y AMD cerró el círculo con las APU Strix Point. Microsoft aprovechó para crear la categoría Copilot+ PC, que exige al menos 40 TOPS de NPU y ha terminado de empujar al mercado en esa dirección.
La pregunta que quiero responder aquí no es si las NPU existen, sino si cambian algo de verdad para quien quiere ejecutar modelos de IA en local. He pasado varios meses probando distintas configuraciones y la respuesta es más matizada de lo que sugieren los anuncios.
Lo que una NPU hace bien
Las NPU actuales están optimizadas para inferencia de redes neuronales con pesos cuantizados, típicamente en INT8 o INT4. No son procesadores de propósito general ni sustitutos de una GPU: son aceleradores especializados en multiplicaciones matriciales con baja precisión y consumo mínimo.
Ahí es donde ganan. Una NPU de 40 TOPS puede ejecutar un modelo de lenguaje pequeño (por ejemplo, Phi-3 Mini cuantizado) a una velocidad perfectamente usable consumiendo entre 5 y 10 vatios. Una GPU de portátil haría la misma tarea más rápido, pero consumiría cuatro o cinco veces más energía, con el ventilador trabajando y la batería cayendo a ojos vistas.
El segundo escenario donde brillan es la visión por computador. Detección de objetos, segmentación, reconocimiento facial en cámaras locales, filtrado de vídeo en tiempo real: todo lo que implique procesar flujos de datos con modelos relativamente pequeños encaja como un guante.
Dónde no llegan
Es importante no confundir las NPU con un reemplazo de la GPU para cargas más serias. Un modelo de 7B parámetros ejecutándose a precisión Q4 va a consumir entre 4 y 5 GB de memoria, y aunque la NPU sea capaz de manejarlo, la memoria disponible en la NPU (compartida con el sistema en la mayoría de arquitecturas) limita el tamaño práctico. Con 16 GB de RAM total, ejecutar un 7B mientras trabajas en otra cosa es incómodo.
Tampoco están diseñadas para entrenamiento, ni para fine-tuning serio. Cuando los anuncios hablan de «IA en tu PC», el escenario asumido es siempre inferencia de modelos pre-entrenados. Cualquier cosa que implique entrenar algo vuelve a requerir GPU, idealmente con VRAM dedicada.
El estado del software
Este es el punto donde las cosas están menos maduras. Tener una NPU no significa que cualquier aplicación la use automáticamente. Cada fabricante expone su NPU a través de un runtime propio: QNN en Qualcomm, OpenVINO en Intel, ROCm/Ryzen AI en AMD. La interoperabilidad ha mejorado mucho con ONNX Runtime, que abstrae las tres plataformas, pero la realidad es que muchos frameworks y aplicaciones siguen asumiendo CPU o GPU y ignoran por completo la NPU.
Algunos productos ya están optimizados: las funciones de Windows Copilot (efectos de cámara, traducción local, subtítulos automáticos) tiran de la NPU en Copilot+ PC. Los modelos que Microsoft empaqueta en Windows para recapitulación de contenido también. Fuera de ese círculo, el ecosistema va por detrás.
Para ejecutar un LLM en local, las opciones más prácticas hoy son LM Studio (que ha empezado a soportar NPU de Qualcomm a través de QNN) y la línea directa de ONNX Runtime con modelos optimizados. Ollama, que es probablemente lo que la mayoría usamos, todavía no explota NPU en la mayoría de configuraciones; va por CPU o por GPU.
Cuándo merece la pena elegir un equipo con NPU
Mi recomendación práctica sería esta. Si compras un portátil nuevo en 2025, casi cualquier equipo de gama media o alta va a traer NPU de fábrica, así que la pregunta real es cómo ponderarla. Si vas a usar modelos de IA en local de forma habitual (asistentes que se ejecuten siempre, procesamiento de vídeo en tiempo real, transcripción de audio), la NPU aporta: alarga la batería y permite tener la función encendida sin impacto notable.
Si tu uso de IA local es ocasional (cargar un modelo, hacer pruebas, generar algún texto suelto), una GPU razonable sigue siendo más versátil. Podrás ejecutar modelos más grandes y tendrás acceso a más ecosistema de herramientas. La NPU no molesta, pero tampoco cambia tu vida.
Donde yo sí elegiría con cuidado es en equipos pequeños y silenciosos: ultrabooks, mini PC, tablets. Ahí la NPU marca una diferencia real. Un Snapdragon X Elite puede correr un Phi-3 decente sin ventilador, y eso no hay GPU integrada que lo iguale.
Mirando un poco más allá
Lo que creo que va a pasar en los próximos dos años es que el ecosistema se nivele. Los runtimes van a converger, los frameworks populares van a empezar a exponer NPU como opción por defecto, y los modelos pequeños específicamente diseñados para NPU (como los de la familia Phi o las versiones cuantizadas de Gemma) van a ser el escenario natural de uso. La transición recuerda a la de las GPU para cálculo científico hace quince años: al principio requerían compiladores especiales y código reescrito; hoy cualquiera las usa sin pensarlo.
Mientras tanto, si ya tienes una NPU en tu equipo, conviene saber que está ahí y empezar a probar lo que permite. No cambia el juego todavía, pero su presencia en el hardware está adelantándose varios pasos al software que lo explotará. Conocerla hoy es una inversión razonable de una tarde, y evita que dentro de un año sigas ignorando un acelerador que llevas en casa.