Escrito por

CEO - Jacar Systems

Apasionado de la tecnología, la infraestructura cloud y la inteligencia artificial. Escribe sobre DevOps, IA, plataformas y software desde Madrid.

Inteligencia Artificial Tecnología

copilot edge ia local llm npu

NPU en el PC: IA local más rápida y barata

enero 6, 2025 11 min de lectura 113 lecturas

Índice de contenidos

Puntos clave
Lo que una NPU hace bien
Dónde no llegan
El estado del software
Cuándo merece la pena elegir un equipo con NPU
Mirando un poco más allá
Conclusión

Actualizado: 2026-05-03

Hace un par de años, hablar de NPU en un PC normal era una rareza. Hoy, si compras un portátil de gama media, lo más probable es que lo traiga. Qualcomm lo metió primero con los Snapdragon X, Intel siguió con Lunar Lake, y AMD cerró el círculo con las APU Strix Point. Microsoft aprovechó para crear la categoría Copilot+ PC, que exige al menos 40 TOPS de NPU y ha terminado de empujar al mercado en esa dirección.

La pregunta que quiero responder aquí no es si las NPU existen, sino si cambian algo de verdad para quien quiere ejecutar modelos de IA en local. He pasado varios meses probando distintas configuraciones y la respuesta es más matizada de lo que sugieren los anuncios.

Puntos clave

Las NPU actuales están optimizadas para inferencia con pesos cuantizados en INT8 o INT4 — no son GPUs de propósito general.
Una NPU de 40 TOPS puede ejecutar Phi-3 Mini cuantizado consumiendo 5-10 W, frente a 40-50 W de una GPU de portátil haciendo la misma tarea.
El ecosistema de software es el punto débil: QNN, OpenVINO y ROCm son runtimes distintos que requieren modelos específicamente optimizados.
Ollama todavía no explota NPU en la mayoría de configuraciones; va por CPU o GPU.
Donde la NPU marca diferencia real es en ultrabooks y mini PCs silenciosos: inferencia continua sin ventilador.

Lo que una NPU hace bien

Las NPU actuales están optimizadas para inferencia de redes neuronales con pesos cuantizados, típicamente en INT8 o INT4. No son procesadores de propósito general ni sustitutos de una GPU: son aceleradores especializados en multiplicaciones matriciales con baja precisión y consumo mínimo.

Ahí es donde ganan. Una NPU de 40 TOPS puede ejecutar un modelo de lenguaje pequeño — por ejemplo, Phi-3 Mini cuantizado — a una velocidad perfectamente usable consumiendo entre 5 y 10 vatios. Una GPU de portátil haría la misma tarea más rápido, pero consumiría cuatro o cinco veces más energía, con el ventilador trabajando y la batería cayendo a ojos vistas.

El segundo escenario donde brillan es la visión por computador: detección de objetos, segmentación, reconocimiento facial en cámaras locales, filtrado de vídeo en tiempo real. Todo lo que implique procesar flujos de datos con modelos relativamente pequeños encaja como un guante. La comparación con el Neural Engine de Apple Silicon es relevante — ambos siguen el mismo principio de especialización que analizamos en Apple Silicon M3 y M4.

Dónde no llegan

Es importante no confundir las NPU con un reemplazo de la GPU para cargas más serias. Un modelo de 7B parámetros ejecutándose a precisión Q4 consume entre 4 y 5 GB de memoria, y aunque la NPU sea capaz de manejarlo, la memoria disponible en la NPU (compartida con el sistema en la mayoría de arquitecturas) limita el tamaño práctico. Con 16 GB de RAM total, ejecutar un 7B mientras trabajas en otra cosa es incómodo.

Tampoco están diseñadas para entrenamiento, ni para fine-tuning serio. Cuando los anuncios hablan de “IA en tu PC”, el escenario asumido es siempre inferencia de modelos pre-entrenados. Cualquier cosa que implique entrenar algo vuelve a requerir GPU, idealmente con VRAM dedicada.

El estado del software

Este es el punto donde las cosas están menos maduras. Tener una NPU no significa que cualquier aplicación la use automáticamente. Cada fabricante expone su NPU a través de un runtime propio:

QNN en Qualcomm.
OpenVINO en Intel.
ROCm/Ryzen AI en AMD.

La interoperabilidad ha mejorado mucho con ONNX Runtime, que abstrae las tres plataformas, pero la realidad es que muchos frameworks y aplicaciones siguen asumiendo CPU o GPU e ignoran por completo la NPU.

Algunos productos ya están optimizados: las funciones de Windows Copilot (efectos de cámara, traducción local, subtítulos automáticos) tiran de la NPU en Copilot+ PC. Fuera de ese círculo, el ecosistema va por detrás.

Para ejecutar un LLM en local, las opciones más prácticas son:

LM Studio: ha empezado a soportar NPU de Qualcomm a través de QNN.
ONNX Runtime con modelos optimizados: ruta directa pero más técnica.
Ollama: todavía no explota NPU en la mayoría de configuraciones; va por CPU o GPU en la mayoría de setups.

Cuándo merece la pena elegir un equipo con NPU

Mi recomendación práctica: si compras un portátil nuevo, casi cualquier equipo de gama media o alta va a traer NPU de fábrica, así que la pregunta real es cómo ponderarla.

Si vas a usar modelos de IA en local de forma habitual — asistentes que se ejecuten siempre, procesamiento de vídeo en tiempo real, transcripción de audio — la NPU aporta: alarga la batería y permite tener la función encendida sin impacto notable en otras tareas.

Si tu uso de IA local es ocasional — cargar un modelo, hacer pruebas, generar algún texto suelto — una GPU razonable sigue siendo más versátil. Podrás ejecutar modelos más grandes y tendrás acceso a más ecosistema de herramientas.

Donde sí elegiría con cuidado es en equipos pequeños y silenciosos: ultrabooks, mini PC, tablets. Ahí la NPU marca una diferencia real. Un Snapdragon X Elite puede correr un Phi-3 decente sin ventilador, y eso no hay GPU integrada que lo iguale. Para el uso de estos modelos pequeños en producción, el artículo sobre Llama 3.2 en el edge describe el ecosistema de modelos que mejor encajan con NPU.

Mirando un poco más allá

Lo que creo que va a pasar en los próximos dos años es que el ecosistema se nivele. Los runtimes van a converger, los frameworks populares van a empezar a exponer NPU como opción por defecto, y los modelos pequeños específicamente diseñados para NPU (como los de la familia Phi o las versiones cuantizadas de Gemma) van a ser el escenario natural de uso.

La transición recuerda a la de las GPU para cálculo científico hace quince años: al principio requerían compiladores especiales y código reescrito; hoy cualquiera las usa sin pensarlo. El ritmo de adopción dependerá de cuánto tiempo tarde la capa de software en alcanzar al hardware.

Conclusión

Las NPU en PC doméstico son hardware adelantado a su software, pero esa distancia se está cerrando. Si ya tienes una en tu equipo, conviene saber que está ahí y empezar a probar lo que permite. Para compras nuevas en 2025, la NPU no es el factor determinante en la mayoría de casos, pero en ultrabooks silenciosos o mini PC donde la eficiencia energética es crítica, sí inclina la balanza. Conocerla hoy es una inversión razonable de una tarde, y evita que dentro de un año sigas ignorando un acelerador que llevas en casa.

¿Te ha resultado útil?

[Total: 11 · Media: 4.5]

Post Views: 113

Escrito por

Javier Cañete

CEO - Jacar Systems

Apasionado de la tecnología, la infraestructura cloud y la inteligencia artificial. Escribe sobre DevOps, IA, plataformas y software desde Madrid.

NPU en el PC: IA local más rápida y barata

Puntos clave

Lo que una NPU hace bien

Dónde no llegan

El estado del software

Cuándo merece la pena elegir un equipo con NPU

Mirando un poco más allá

Conclusión

Entradas relacionadas

«EU AI Act 2026: checklist técnica para CTOs españoles»

Observabilidad de agentes con OpenTelemetry GenAI semconv en 2026

Cómo instalar oMLX en M5 Max 128 GB y exprimirlo al máximo

Sistemas multi-agente: LangGraph vs CrewAI vs Autogen en 2026