داخل NPU: لماذا كل شريحة رئيسية لديها الآن محرك عصبي — وماذا يفعل بالفعل

تحول صامت في الأجهزة كان قيد التطوير منذ ثلاث سنوات، وفي 2026 أصبح مكتملاً بشكل أساسي: تقريباً كل معالج استهلاكي يُشحن من Apple و Qualcomm و Intel و AMD و MediaKit يتضمن الآن وحدة معالجة عصبية مخصصة. لم يعد NPU مجرد مواصفة للمتحمسين. إنه المعيار الجديد.

هذا التغيير مهم لدرجة أن برنامج شهادة Copilot+ في Windows 11 جعل الحد الأدنى 40 TOPS مطلباً صارماً للـ NPU للحصول على الشهادة. عملياً، ماذا تفعل هذه الرقائق — ولماذا لم يتمكن أجهزة GPU و CPU الحالية من معالجة نفس أعباء العمل؟

لماذا شريحة منفصلة للذكاء الاصطناعي

لم تختفِ GPU من مكدس الذكاء الاصطناعي — فهي لا تزال المنصة الحاسوبية المهيمنة للتدريب والاستدلال واسع النطاق في مراكز البيانات. لكن وحدات GPU تستهلك طاقة كبيرة وهي محسَّنة للتوازي على نطاق واسع. استخدام هاتف أو كمبيوتر محمول لـ GPU محمول للاستدلال المستمر للذكاء الاصطناعي — إلغاء الضوضاء الخلفية، الترجمة الفورية، تحسين الفيديو — سيستنزف البطارية في غضون ساعات قليلة.

تحل NPUs هذه المشكلة بالتخصص. على عكس GPU (التي تشغل أعباء عمل متوازية عامة) أو CPU (التي تتفوق في المنطق التسلسلي والمتفرع)، فإن NPU مصممة خصيصاً لعمليات ضرب المصفوفات ووظائف التنشيط التي تهيمن على استدلال الشبكات العصبية. النتيجة هي كفاءة طاقة أفضل بأضعاف مضاعفة لمجموعة محدودة ولكن متزايدة من المهام.

تقوم Apple بشحن NPUs منذ A11 Bionic في 2017، والتي تم تسويقها في البداية باسم "المحرك العصبي" لـ Face ID. محرك A11 العصبي نفذ 600 مليار عملية في الثانية. A18 Pro في iPhone 16 Pro ينفذ 35 TOPS — تحسن بنحو 60 ضعفاً في تسع سنوات، على شريحة لا تزال تناسب الهاتف.

المشهد الحالي حسب المنصة

Snapdragon X Elite من Qualcomm، الشريحة التي تشغل معظم أجهزة Copilot+ Windows المحمولة التي صدرت في 2024-2025، توفر 45 TOPS عبر NPU Hexagon. تدّعي Qualcomm كفاءة أفضل لكل واط بمقدار 4.5x مقارنة باستدلال GPU المماثل على نفس المهام — وهو رقم يصمد بشكل معقول في الاختبارات المستقلة.

M4 Pro من Apple يقدم 38 TOPS من محركه العصبي، مع تقارير Apple عن مكاسب كبيرة في معايير Core ML مقارنة بجيل M3. تستفيد شرائح سلسلة M من بنية الذاكرة الموحدة — يشترك المحرك العصبي في نفس مجموعة الذاكرة عالية النطاق مع CPU و GPU، مما يلغي الحمل الزائد للنسخ الذي يعيق استدلال GPU المنفصل على النماذج الصغيرة.

سلسلة Core Ultra 200 من Intel (Lunar Lake) تمثل أفضل NPU من Intel حتى الآن عند 48 TOPS — مصممة خصيصاً لتتجاوز عتبة Copilot+ بهامش يسمح بمتطلبات Windows AI المستقبلية. سلسلة Ryzen AI 300 من AMD تصل إلى 50 TOPS. Dimensity 9400 من MediaTek، الذي يشغل سلسلة Samsung Galaxy S25، يحقق 50 TOPS مع مكاسب كفاءة كبيرة مقارنة بالجيل السابق.

ما تشغله NPUs بالفعل

حالات الاستخدام تندرج في فئات ثابتة:

المهام المستمرة والحساسة للزمن. النسخ الفوري (Live Text من Apple، وضوح الصوت في Windows Studio)، إلغاء الخلفية في مكالمات الفيديو، وإلغاء الضوضاء النشط هي مهام يكون فيها زمن استجابة GPU مرتفعاً جداً وتضيف رحلات الذهاب والإياب السحابية تأخيراً غير مقبول. تتعامل NPUs مع هذه المهام بشكل مستمر مع استهلاك طاقة أدنى.

استدلال LLM على الجهاز. النماذج في نطاق 1-8 مليار معامل — Phi-3 Mini، Gemma 3 4B، Llama 3.2 3B — يمكن تشغيلها بالكامل على الجهاز عبر NPU عند كميتها بدقة 4 بت. بنية Private Cloud Compute من Apple تُفوِّض فقط المهام الكبيرة جداً للمحرك العصبي. على Windows، يعمل Phi-3 Mini من Microsoft بشكل أصلي عبر DirectML على NPU Hexagon لاستجابات Copilot على الجهاز.

التصوير الحاسوبي. دمج HDR الفوري، التقسيم الدلالي لاستبدال الخلفية، تتبع شبكة الوجه للواقع المعزز — هذه أعباء عمل NPU على كل هاتف رائد حالي. انتقل خط معالجة الكاميرا بشكل كبير من ISP إلى NPU على مدى السنوات الثلاث الماضية.

فهرسة البحث والاسترجاع. يستخدم Windows Recall NPU لمعالجة لقطات الشاشة بشكل مستمر وإنشاء فهرس دلالي قابل للبحث. يستخدم بحث Photos على الجهاز من Apple المحرك العصبي لتضمين الصور ومطابقة التشابه.

مشكلة المعيار

TOPS مقياس خادع. إنه يقيس الإنتاجية القصوى في ظل ظروف مثالية — ضرب مصفوفة مستمر مع جميع وحدات التنفيذ نشطة. أعباء العمل الحقيقية للذكاء الاصطناعي أكثر تقلباً وانتظاماً. قد يكون أداء NPU بقدرة 50 TOPS تشغل نموذجاً سيئ التحسين أسوأ من شريحة بقدرة 35 TOPS مع دمج أفضل للمترجم وهندسة ذاكرة أفضل.

المعيار الناشئ لاختبار NPU العملي هو MLPerf Mobile، الذي يقيس الأداء من البداية إلى النهاية على نماذج موحدة بدلاً من TOPS الخام. يمكن أن تكون الفجوة بين المواصفات الورقية ونتائج MLPerf واسعة. بعض الرقائق ذات TOPS العالي تؤدي أداءً ضعيفاً بشكل ملحوظ في المهام التي لم تكن مركزية في تصميمها.

ماذا يعني هذا للمطورين

وجود NPUs المنتشرة على نطاق واسع يخلق طبقة جديدة في مكدس نشر الذكاء الاصطناعي. التقسيم الحالي: استدلال سحابي للنماذج الكبيرة (GPT-4، Claude 3.7+، Gemini 2.5)، استدلال NPU على الجهاز للنماذج حتى ~8 مليار معامل بكمية 4 بت، وطبقة وسطى متنامية من استدلال الحافة على مستوى الخوادم للنماذج من 13-70 مليار معامل.

للمطورين الذين يبنون ميزات مدعومة بالذكاء الاصطناعي، السؤال العملي الآن هو أي طبقة استدلال تناسب حالة الاستخدام — ليس فقط ما إذا كان الاستدلال السحابي متاحاً. المهام ذات متطلبات الخصوصية الصارمة، احتياجات زمن الاستجابة المنخفضة، أو المتطلبات غير المتصلة بالإنترنت يجب أن تستهدف الاستدلال على الجهاز عبر Core ML أو Windows ML أو Android NNAPI. الأطر (Frameworks) تنضج. الأجهزة موجودة.

سباق NPU لا يبطئ. منصة Snapdragon من الجيل التالي من Qualcomm من المتوقع أن تتجاوز 70 TOPS. سلسلة A19 Pro من Apple تستهدف 45+ TOPS. السؤال لم يعد ما إذا كان جهازك يحتوي على شريحة ذكاء اصطناعي — بل أي أجزاء من عبء العمل لديك قمت بنقلها إليها.