داخل NPU: چرا هر تراشه‌ی بزرگی اکنون یک موتور عصبی دارد — و واقعاً چه کاری انجام می‌دهد

یک تحول سخت‌افزاری آرام از سه سال پیش آغاز شده بود و در سال ۲۰۲۶ عملاً کامل شده است: تقریباً هر پردازنده مصرفی که توسط Apple، Qualcomm، Intel، AMD و MediaTek عرضه شده، اکنون شامل یک واحد پردازش عصبی اختصاصی است. NPU دیگر یک مشخصه مخصوص علاقه‌مندان نیست. این یک پایه جدید است.

این تغییر به اندازه‌ای مهم است که برنامه گواهی Copilot+ در ویندوز ۱۱، حداقل ۴۰ TOPS را به‌عنوان یک الزام سخت برای NPU تعیین کرده است. در عمل، این تراشه‌ها چه کاری انجام می‌دهند — و چرا سخت‌افزار موجود GPU و CPU نمی‌توانست همان بارهای کاری را مدیریت کند؟

چرا یک تراشه جداگانه برای هوش مصنوعی

GPU از پشته هوش مصنوعی حذف نشده است — این بستر محاسباتی غالب برای آموزش و استنتاج در مقیاس بزرگ در مراکز داده باقی می‌ماند. اما GPUها انرژی‌بر هستند و برای موازی‌سازی در مقیاس بهینه شده‌اند. اگر یک تلفن یا لپ‌تاپ از GPU موبایل برای استنتاج مداوم هوش مصنوعی استفاده کند — حذف نویز پس‌زمینه، ترجمه بلادرنگ، بهبود ویدیو — باتری در عرض چند ساعت تخلیه می‌شود.

NPUها این مشکل را با تخصصی‌سازی حل می‌کنند. برخلاف GPU (که بار کاری موازی عمومی را اجرا می‌کند) یا CPU (که در منطق ترتیبی و شاخه‌ای عالی است)، یک NPU به طور خاص برای ضرب ماتریس‌ها و توابع فعال‌سازی که بر استنتاج شبکه عصبی غالب هستند، ساخته شده است. نتیجه، کارایی انرژی به مراتب بهتر برای مجموعه‌ای محدود اما رو به رشد از وظایف است.

Apple از زمان A11 Bionic در سال ۲۰۱۷ NPU عرضه می‌کرد که در ابتدا به‌عنوان «موتور عصبی» برای Face ID بازاریابی می‌شد. موتور عصبی A11 حدود ۶۰۰ میلیارد عملیات در ثانیه انجام می‌داد. A18 Pro در iPhone 16 Pro، ۳۵ TOPS انجام می‌دهد — بهبودی تقریباً ۶۰ برابری در عرض ۹ سال، روی تراشه‌ای که باز هم در یک تلفن جا می‌گیرد.

چشم‌انداز فعلی بر اساس پلتفرم

Snapdragon X Elite از Qualcomm، تراشه‌ای که بیشتر لپ‌تاپ‌های Copilot+ ویندوز عرضه‌شده در ۲۰۲۴–۲۰۲۵ را تأمین می‌کند، ۴۵ TOPS از طریق NPU Hexagon خود ارائه می‌دهد. Qualcomm ادعا می‌کند که کارایی آن در هر وات ۴٫۵ برابر بهتر از استنتاج GPU مشابه در همان وظایف است — رقمی که در آزمایش‌های مستقل نسبتاً خوب باقی مانده است.

M4 Pro Apple، ۳۸ TOPS از موتور عصبی خود ارائه می‌دهد و Apple گزارش افزایش قابل توجهی در معیارهای Core ML نسبت به نسل M3 داده است. تراشه‌های سری M از معماری حافظه یکپارچه بهره می‌برند — موتور عصبی همان حافظه با پهنای باند بالا را با CPU و GPU به اشتراک می‌گذارد و سربار کپی را که استنتاج GPU مجزا روی مدل‌های کوچک را مختل می‌کند، از بین می‌برد.

سری Core Ultra 200 اینتل (Lunar Lake) بهترین NPU اینتل تا به امروز را با ۴۸ TOPS معرفی می‌کند — که به طور خاص برای عبور از آستانه Copilot+ با حاشیه‌ای طراحی شده که بتواند نیازهای آینده هوش مصنوعی ویندوز را پوشش دهد. سری Ryzen AI 300 ای‌ام‌دی به ۵۰ TOPS می‌رسد. Dimensity 9400 مدیاتک که سری Galaxy S25 سامسونگ را تغذیه می‌کند، با بهبود کارایی قابل توجه نسبت به نسل قبل، به ۵۰ TOPS دست می‌یابد.

NPUها واقعاً چه چیزی را اجرا می‌کنند

موارد استفاده در دسته‌بندی‌های ثابتی قرار می‌گیرند:

وظایف مداوم و حساس به تأخیر. رونویسی بلادرنگ (Live Text اپل، شفافیت صوتی Windows Studio)، محو کردن پس‌زمینه در تماس‌های ویدیویی و حذف نویز فعال از وظایفی هستند که در آن‌ها تأخیر GPU بسیار زیاد است و رفت‌و‌برگشت‌های ابری تأخیر غیرقابل قبولی ایجاد می‌کنند. NPUها این وظایف را به طور مداوم با مصرف توان حداقل انجام می‌دهند.

استنتاج LLM روی دستگاه. مدل‌های موجود در محدوده ۱ تا ۸ میلیارد پارامتر — Phi-3 Mini، Gemma 3 4B، Llama 3.2 3B — می‌توانند پس از کوانتیزه شدن به دقت ۴ بیت، به طور کامل روی دستگاه از طریق NPU اجرا شوند. معماری Private Cloud Compute اپل فقط وظایفی را به ابر واگذار می‌کند که برای موتور عصبی بسیار بزرگ باشند. در ویندوز، Phi-3 Mini مایکروسافت به صورت بومی از طریق DirectML روی NPU Hexagon برای پاسخ‌های Copilot روی دستگاه اجرا می‌شود.

عکاسی محاسباتی. ترکیب HDR بلادرنگ، بخش‌بندی معنایی برای جایگزینی پس‌زمینه، ردیابی مش صورت برای AR — این‌ها بارهای کاری NPU در تمام پرچم‌داران فعلی تلفن هستند. لوله پردازش دوربین در سه سال گذشته عمدتاً از ISP به NPU منتقل شده است.

جستجو و نمایه‌سازی بازیابی. Windows Recall از NPU برای پردازش مداوم تصاویر صفحه و ایجاد یک نمایه معنایی قابل جستجو استفاده می‌کند. جستجوی Photos روی دستگاه اپل از موتور عصبی برای جاسازی تصویر و تطبیق شباهت استفاده می‌کند.

مشکل معیار

TOPS یک معیار فریبنده است. این معیار توان عملیاتی اوج را در شرایط ایده‌آل اندازه‌گیری می‌کند — ضرب ماتریس پایدار با تمام واحدهای اجرایی فعال. بارهای کاری واقعی هوش مصنوعی نوسانی‌تر و نامنظم‌تر هستند. یک NPU 50-TOPS که یک مدل ضعیف بهینه‌سازی شده را اجرا می‌کند، ممکن است از یک تراشه 35-TOPS با پشتیبانی بهتر کامپایلر و معماری حافظه ضعیف‌تر عمل کند.

استاندارد نوظهور برای محک NPU عملی، MLPerf Mobile است که عملکرد سرتاسری را روی مدل‌های استاندارد اندازه‌گیری می‌کند، نه TOPS خام. شکاف بین مشخصات کاغذی و نتایج MLPerf می‌تواند زیاد باشد. برخی تراشه‌های با TOPS بالا در وظایفی که برای طراحی آن‌ها محوری نبوده‌اند، عملکرد ضعیفی دارند.

این برای توسعه‌دهندگان چه معنایی دارد

وجود NPUهای مستقر در سطح گسترده، طبقه جدیدی را در پشته استقرار هوش مصنوعی ایجاد می‌کند. تقسیم‌بندی فعلی: استنتاج ابری برای مدل‌های بزرگ (GPT-4، Claude 3.7+، Gemini 2.5)، استنتاج NPU روی دستگاه برای مدل‌های تا حدود ۸ میلیارد پارامتر در کوانتیزاسیون ۴ بیت، و یک طبقه میانی رو به رشد از استنتاج لبه سطح سرور برای مدل‌های ۱۳ تا ۷۰ میلیارد پارامتر.

برای توسعه‌دهندگانی که ویژگی‌های مبتنی بر هوش مصنوعی می‌سازند، سؤال عملی اکنون این است که کدام طبقه استنتاج با مورد استفاده مطابقت دارد — نه فقط اینکه آیا استنتاج ابری در دسترس است. وظایف با نیازهای سختگیرانه حریم خصوصی، نیازمندی‌های تأخیر کم یا نیازهای آفلاین باید از طریق Core ML، Windows ML یا Android NNAPI استنتاج روی دستگاه را هدف قرار دهند. فریم‌ورک‌ها در حال بلوغ هستند. سخت‌افزار وجود دارد.

رقابت NPU کند نمی‌شود. پلتفرم نسل بعدی Snapdragon از Qualcomm انتظار می‌رود از ۷۰ TOPS فراتر رود. خانواده A19 Pro اپل 45+ TOPS را هدف گرفته است. سؤال دیگر این نیست که آیا دستگاه شما یک تراشه هوش مصنوعی دارد — بلکه این است که کدام بخش از بار کاری خود را به آن منتقل کرده‌اید.