Dentro de la NPU: por qué todos los chips importantes tienen ahora un motor neuronal — y qué hace realmente

Una transición silenciosa de hardware se ha estado gestando durante tres años, y en 2026 está esencialmente completa: casi todos los procesadores de consumo enviados por Apple, Qualcomm, Intel, AMD y MediaTek incluyen ahora una unidad de procesamiento neural dedicada. La NPU ya no es una especificación para entusiastas. Es la nueva línea de base.

El cambio es lo suficientemente significativo como para que el programa de certificación Copilot+ de Windows 11 haya establecido un requisito mínimo de 40 TOPS para la NPU como puerta dura para la certificación. En la práctica, ¿qué hacen estos chips — y por qué el hardware existente de GPU y CPU no podía manejar las mismas cargas de trabajo?

Por qué un chip separado para IA

La GPU no ha desaparecido del stack de IA — sigue siendo el sustrato computacional dominante para el entrenamiento y la inferencia a gran escala en centros de datos. Pero las GPU consumen mucha energía y están optimizadas para el paralelismo a gran escala. Un teléfono o portátil que use una GPU móvil para inferencia continua de IA — cancelación de ruido de fondo, traducción en tiempo real, mejora de video — agotaría la batería en pocas horas.

Las NPU resuelven esto con especialización. A diferencia de una GPU (que ejecuta cargas de trabajo paralelas generales) o una CPU (que destaca en lógica secuencial y ramificada), una NPU está diseñada específicamente para las multiplicaciones de matrices y funciones de activación que dominan la inferencia de redes neuronales. El resultado es una eficiencia energética órdenes de magnitud mejor para un conjunto limitado pero creciente de tareas.

Apple ha estado enviando NPU desde el A11 Bionic en 2017, inicialmente comercializado como el "Neural Engine" para Face ID. El Neural Engine del A11 ejecutaba 600 mil millones de operaciones por segundo. El A18 Pro del iPhone 16 Pro alcanza 35 TOPS — una mejora de casi 60 veces en nueve años, en un chip que aún cabe en un teléfono.

El panorama actual por plataforma

El Snapdragon X Elite de Qualcomm, el chip que alimenta la mayoría de los portátiles Windows Copilot+ lanzados en 2024-2025, ofrece 45 TOPS a través de su NPU Hexagon. Qualcomm afirma una eficiencia 4,5 veces mejor por vatio que la inferencia de GPU comparable en las mismas tareas — una cifra que se mantiene razonablemente bien en pruebas independientes.

El M4 Pro de Apple proporciona 38 TOPS desde su Neural Engine, con Apple reportando ganancias sustanciales en los benchmarks de Core ML respecto a la generación M3. Los chips de la serie M se benefician de una arquitectura de memoria unificada: el Neural Engine comparte el mismo grupo de memoria de alto ancho de banda que la CPU y la GPU, eliminando la sobrecarga de copia que dificulta la inferencia de GPU discreta en modelos pequeños.

La serie Core Ultra 200 de Intel (Lunar Lake) marca la NPU más competitiva de Intel hasta la fecha con 48 TOPS — diseñada específicamente para superar el umbral de Copilot+ con un margen que permita futuros requisitos de IA de Windows. La serie Ryzen AI 300 de AMD alcanza 50 TOPS. El Dimensity 9400 de MediaTek, que alimenta la serie Samsung Galaxy S25, logra 50 TOPS con ganancias significativas de eficiencia respecto a la generación anterior.

Qué están ejecutando realmente las NPU

Los casos de uso se agrupan en categorías consistentes:

Tareas continuas y sensibles a la latencia. Transcripción en tiempo real (Live Text de Apple, claridad de voz de Windows Studio), desenfoque de fondo en videollamadas y cancelación activa de ruido son tareas donde la latencia de la GPU es demasiado alta y los viajes de ida y vuelta a la nube introducen un retardo inaceptable. Las NPU manejan estas tareas de forma continua con un consumo de energía mínimo.

Inferencia de LLM en el dispositivo. Modelos en el rango de 1B a 8B parámetros — Phi-3 Mini, Gemma 3 4B, Llama 3.2 3B — pueden ejecutarse completamente en el dispositivo a través de la NPU cuando se cuantizan a precisión de 4 bits. La arquitectura Private Cloud Compute de Apple descarga solo las tareas demasiado grandes para el Neural Engine. En Windows, Phi-3 Mini de Microsoft se ejecuta de forma nativa a través de DirectML en la NPU Hexagon para respuestas de Copilot en el dispositivo.

Fotografía computacional. Fusión HDR en tiempo real, segmentación semántica para reemplazo de fondo, seguimiento de malla facial para AR — estas son cargas de trabajo de NPU en todos los teléfonos insignia actuales. El pipeline de procesamiento de la cámara se ha migrado en gran medida del ISP a la NPU durante los últimos tres años.

Indexación de búsqueda y recuperación. Windows Recall usa la NPU para procesar continuamente capturas de pantalla y crear un índice semántico buscable. La búsqueda de Fotos en el dispositivo de Apple usa el Neural Engine para la incrustación de imágenes y la coincidencia de similitudes.

El problema del benchmark

TOPS es una métrica engañosa. Mide el rendimiento máximo en condiciones ideales — multiplicación de matrices sostenida con todas las unidades de ejecución activas. Las cargas de trabajo reales de IA son más irregulares y explosivas. Una NPU de 50 TOPS ejecutando un modelo mal optimizado puede rendir menos que un chip de 35 TOPS con mejor soporte del compilador y arquitectura de memoria.

El estándar emergente para la evaluación comparativa práctica de NPU es MLPerf Mobile, que mide el rendimiento de extremo a extremo en modelos estandarizados en lugar de TOPS brutos. La brecha entre las especificaciones en papel y los resultados de MLPerf puede ser amplia. Algunos chips con altos TOPS tienen un rendimiento significativamente inferior en tareas que no eran centrales en su diseño.

Qué significa esto para los desarrolladores

La existencia de NPU ampliamente desplegadas está creando un nuevo nivel en el stack de implementación de IA. La división actual: inferencia en la nube para modelos grandes (GPT-4, Claude 3.7+, Gemini 2.5), inferencia NPU en el dispositivo para modelos de hasta ~8B parámetros en cuantización de 4 bits, y un nivel medio creciente de inferencia en el borde de clase servidor para modelos de 13B a 70B.

Para los desarrolladores que construyen funciones impulsadas por IA, la pregunta práctica ahora es qué nivel de inferencia se ajusta al caso de uso — no solo si la inferencia en la nube está disponible. Las tareas con requisitos estrictos de privacidad, necesidades de baja latencia o requisitos fuera de línea deben apuntar a la inferencia en el dispositivo a través de Core ML, Windows ML o Android NNAPI. Los frameworks están madurando. El hardware está ahí.

La carrera de NPU no se ralentiza. Se espera que la plataforma Snapdragon de próxima generación de Qualcomm supere los 70 TOPS. La familia A19 Pro de Apple apunta a 45+ TOPS. La pregunta ya no es si tu dispositivo tiene un chip de IA — sino qué partes de tu carga de trabajo has movido a él.