داخل NPU: چرا هر تراشهی بزرگی اکنون یک موتور عصبی دارد — و واقعاً چه کاری انجام میدهد

یک تحول سختافزاری آرام از سه سال پیش آغاز شده بود و در سال ۲۰۲۶ عملاً کامل شده است: تقریباً هر پردازنده مصرفی که توسط Apple، Qualcomm، Intel، AMD و MediaTek عرضه شده، اکنون شامل یک واحد پردازش عصبی اختصاصی است. NPU دیگر یک مشخصه مخصوص علاقهمندان نیست. این یک پایه جدید است.
این تغییر به اندازهای مهم است که برنامه گواهی Copilot+ در ویندوز ۱۱، حداقل ۴۰ TOPS را بهعنوان یک الزام سخت برای NPU تعیین کرده است. در عمل، این تراشهها چه کاری انجام میدهند — و چرا سختافزار موجود GPU و CPU نمیتوانست همان بارهای کاری را مدیریت کند؟
چرا یک تراشه جداگانه برای هوش مصنوعی
GPU از پشته هوش مصنوعی حذف نشده است — این بستر محاسباتی غالب برای آموزش و استنتاج در مقیاس بزرگ در مراکز داده باقی میماند. اما GPUها انرژیبر هستند و برای موازیسازی در مقیاس بهینه شدهاند. اگر یک تلفن یا لپتاپ از GPU موبایل برای استنتاج مداوم هوش مصنوعی استفاده کند — حذف نویز پسزمینه، ترجمه بلادرنگ، بهبود ویدیو — باتری در عرض چند ساعت تخلیه میشود.
NPUها این مشکل را با تخصصیسازی حل میکنند. برخلاف GPU (که بار کاری موازی عمومی را اجرا میکند) یا CPU (که در منطق ترتیبی و شاخهای عالی است)، یک NPU به طور خاص برای ضرب ماتریسها و توابع فعالسازی که بر استنتاج شبکه عصبی غالب هستند، ساخته شده است. نتیجه، کارایی انرژی به مراتب بهتر برای مجموعهای محدود اما رو به رشد از وظایف است.
Apple از زمان A11 Bionic در سال ۲۰۱۷ NPU عرضه میکرد که در ابتدا بهعنوان «موتور عصبی» برای Face ID بازاریابی میشد. موتور عصبی A11 حدود ۶۰۰ میلیارد عملیات در ثانیه انجام میداد. A18 Pro در iPhone 16 Pro، ۳۵ TOPS انجام میدهد — بهبودی تقریباً ۶۰ برابری در عرض ۹ سال، روی تراشهای که باز هم در یک تلفن جا میگیرد.
چشمانداز فعلی بر اساس پلتفرم
Snapdragon X Elite از Qualcomm، تراشهای که بیشتر لپتاپهای Copilot+ ویندوز عرضهشده در ۲۰۲۴–۲۰۲۵ را تأمین میکند، ۴۵ TOPS از طریق NPU Hexagon خود ارائه میدهد. Qualcomm ادعا میکند که کارایی آن در هر وات ۴٫۵ برابر بهتر از استنتاج GPU مشابه در همان وظایف است — رقمی که در آزمایشهای مستقل نسبتاً خوب باقی مانده است.
M4 Pro Apple، ۳۸ TOPS از موتور عصبی خود ارائه میدهد و Apple گزارش افزایش قابل توجهی در معیارهای Core ML نسبت به نسل M3 داده است. تراشههای سری M از معماری حافظه یکپارچه بهره میبرند — موتور عصبی همان حافظه با پهنای باند بالا را با CPU و GPU به اشتراک میگذارد و سربار کپی را که استنتاج GPU مجزا روی مدلهای کوچک را مختل میکند، از بین میبرد.
سری Core Ultra 200 اینتل (Lunar Lake) بهترین NPU اینتل تا به امروز را با ۴۸ TOPS معرفی میکند — که به طور خاص برای عبور از آستانه Copilot+ با حاشیهای طراحی شده که بتواند نیازهای آینده هوش مصنوعی ویندوز را پوشش دهد. سری Ryzen AI 300 ایامدی به ۵۰ TOPS میرسد. Dimensity 9400 مدیاتک که سری Galaxy S25 سامسونگ را تغذیه میکند، با بهبود کارایی قابل توجه نسبت به نسل قبل، به ۵۰ TOPS دست مییابد.
NPUها واقعاً چه چیزی را اجرا میکنند
موارد استفاده در دستهبندیهای ثابتی قرار میگیرند:
وظایف مداوم و حساس به تأخیر. رونویسی بلادرنگ (Live Text اپل، شفافیت صوتی Windows Studio)، محو کردن پسزمینه در تماسهای ویدیویی و حذف نویز فعال از وظایفی هستند که در آنها تأخیر GPU بسیار زیاد است و رفتوبرگشتهای ابری تأخیر غیرقابل قبولی ایجاد میکنند. NPUها این وظایف را به طور مداوم با مصرف توان حداقل انجام میدهند.
استنتاج LLM روی دستگاه. مدلهای موجود در محدوده ۱ تا ۸ میلیارد پارامتر — Phi-3 Mini، Gemma 3 4B، Llama 3.2 3B — میتوانند پس از کوانتیزه شدن به دقت ۴ بیت، به طور کامل روی دستگاه از طریق NPU اجرا شوند. معماری Private Cloud Compute اپل فقط وظایفی را به ابر واگذار میکند که برای موتور عصبی بسیار بزرگ باشند. در ویندوز، Phi-3 Mini مایکروسافت به صورت بومی از طریق DirectML روی NPU Hexagon برای پاسخهای Copilot روی دستگاه اجرا میشود.
عکاسی محاسباتی. ترکیب HDR بلادرنگ، بخشبندی معنایی برای جایگزینی پسزمینه، ردیابی مش صورت برای AR — اینها بارهای کاری NPU در تمام پرچمداران فعلی تلفن هستند. لوله پردازش دوربین در سه سال گذشته عمدتاً از ISP به NPU منتقل شده است.
جستجو و نمایهسازی بازیابی. Windows Recall از NPU برای پردازش مداوم تصاویر صفحه و ایجاد یک نمایه معنایی قابل جستجو استفاده میکند. جستجوی Photos روی دستگاه اپل از موتور عصبی برای جاسازی تصویر و تطبیق شباهت استفاده میکند.
مشکل معیار
TOPS یک معیار فریبنده است. این معیار توان عملیاتی اوج را در شرایط ایدهآل اندازهگیری میکند — ضرب ماتریس پایدار با تمام واحدهای اجرایی فعال. بارهای کاری واقعی هوش مصنوعی نوسانیتر و نامنظمتر هستند. یک NPU 50-TOPS که یک مدل ضعیف بهینهسازی شده را اجرا میکند، ممکن است از یک تراشه 35-TOPS با پشتیبانی بهتر کامپایلر و معماری حافظه ضعیفتر عمل کند.
استاندارد نوظهور برای محک NPU عملی، MLPerf Mobile است که عملکرد سرتاسری را روی مدلهای استاندارد اندازهگیری میکند، نه TOPS خام. شکاف بین مشخصات کاغذی و نتایج MLPerf میتواند زیاد باشد. برخی تراشههای با TOPS بالا در وظایفی که برای طراحی آنها محوری نبودهاند، عملکرد ضعیفی دارند.
این برای توسعهدهندگان چه معنایی دارد
وجود NPUهای مستقر در سطح گسترده، طبقه جدیدی را در پشته استقرار هوش مصنوعی ایجاد میکند. تقسیمبندی فعلی: استنتاج ابری برای مدلهای بزرگ (GPT-4، Claude 3.7+، Gemini 2.5)، استنتاج NPU روی دستگاه برای مدلهای تا حدود ۸ میلیارد پارامتر در کوانتیزاسیون ۴ بیت، و یک طبقه میانی رو به رشد از استنتاج لبه سطح سرور برای مدلهای ۱۳ تا ۷۰ میلیارد پارامتر.
برای توسعهدهندگانی که ویژگیهای مبتنی بر هوش مصنوعی میسازند، سؤال عملی اکنون این است که کدام طبقه استنتاج با مورد استفاده مطابقت دارد — نه فقط اینکه آیا استنتاج ابری در دسترس است. وظایف با نیازهای سختگیرانه حریم خصوصی، نیازمندیهای تأخیر کم یا نیازهای آفلاین باید از طریق Core ML، Windows ML یا Android NNAPI استنتاج روی دستگاه را هدف قرار دهند. فریمورکها در حال بلوغ هستند. سختافزار وجود دارد.
رقابت NPU کند نمیشود. پلتفرم نسل بعدی Snapdragon از Qualcomm انتظار میرود از ۷۰ TOPS فراتر رود. خانواده A19 Pro اپل 45+ TOPS را هدف گرفته است. سؤال دیگر این نیست که آیا دستگاه شما یک تراشه هوش مصنوعی دارد — بلکه این است که کدام بخش از بار کاری خود را به آن منتقل کردهاید.