حوسبة Inference وتقييم تقدم الذكاء الاصطناعي

لسنوات، كانت أسهل طريقة لتلخيص تقدم الذكاء الاصطناعي هي الإشارة إلى حجم التدريب. نماذج أكبر، مجموعات بيانات أضخم، عناقيد GPU أكبر، وتدريبات أوسع بدت وكأنها تقدم قصة مباشرة إلى حد ما: القدرة ترتفع عندما ترتفع عدد المعلمات وميزانيات ما قبل التدريب. هذا الإطار كان مفيدًا، لكنه الآن غير مكتمل بوضوح. في المهام التي تتطلب تفكيرًا كثيفًا، يولي الباحثون اهتمامًا أكبر لما يحدث بعد التدريب، عندما يُطلب من النموذج حل مشكلة ويمكنه إنفاق حساب إضافي على البحث، التأمل، التحليل، أو التحقق.

التحول العملي مهم لأنه يغير ما يعنيه نتيجة Benchmark في الواقع. النموذج الذي يجيب على سؤال في تمريرة واحدة لا يعمل تحت نفس الظروف التي يعمل بها نظام يُسمح له بأخذ عينات متعددة من سلاسل التفكير، استدعاء أدوات، تشغيل مدقق، أو إنفاق ميزانية وقت اختبار أكبر بكثير على الاختيار. نتيجة لذلك، تجمع العديد من النتائج البارزة الآن بين قدرة النموذج الأساسي واستراتيجية الاستدلال. إذا لم يفصل القراء هذه الطبقات، يمكنهم بسهولة إساءة فهم مصدر التقدم.

لماذا لم يعد عدد المعلمات كافيًا

عدد المعلمات لا يزال مهمًا. النماذج الكبيرة تحتفظ بمعرفة عالمية أوسع، ومهارات كامنة أكثر، وافتراضات أقوى. لكن في العديد من تقييمات الحدود، خاصة في الرياضيات، البرمجة، المهام الوكلية، والتفكير العلمي، لم يعد الأداء الخام لمرة واحدة يلتقط السقف. وجد الباحثون مرارًا أن النموذج يمكنه أداء أفضل بشكل ملحوظ إذا سُمح له بتوليد عدة حلول مرشحة، نقدها، واختيار من بينها باستخدام مدقق أو نموذج مكافأة. بمعنى آخر، تعتمد القدرة ليس فقط على ما تم ضغطه أثناء التدريب، ولكن أيضًا على مقدار التفكير الإضافي الذي يتم شراؤه في وقت الاستدلال.

هذا مهم لأن نموذجين لهما نسب تدريب متشابهة يمكن أن يبدوان مختلفين جدًا بمجرد إدخال ميزانيات التفكير. قد يتحسن أحد النماذج بشكل كبير عند أخذ عينات متكررة، بينما قد يتوقف الآخر بسرعة. قد يستفيد أحد النماذج من استخدام الأدوات والفحص الخارجي، بينما يكرر الآخر نفس نمط الفشل في الغالب. هذا يعني أن العادة القديمة في قراءة جدول النتائج كبديل لجودة ما قبل التدريب تضعف. بشكل متزايد، يعكس الجدول تفاعلًا بين النموذج الأساسي، وسقالة Prompt، وسياسة البحث، والمدقق.

حسابات وقت الاستنتاج أصبحت موردًا قابلًا للتحكم

الباحثون يحبون هذا الإطار لأن حسابات وقت الاستنتاج قابلة للتعديل. عمليات التدريب مكلفة وثابتة إلى حد كبير بمجرد اكتمالها، لكن ميزانيات وقت الاختبار يمكن زيادتها أو تقليلها حسب المهمة. يمكن للنظام إنفاق المزيد من Token على إثبات صعب على مستوى الأولمبياد، وأقل على تلخيص روتيني، واستخدام حساب انتقائي فقط عندما تكون عدم اليقين عالية. هذا يجعل الاستدلال مشكلة جدولة بدلاً من مجرد تمريرة ثابتة عبر شبكة.

هذا التغيير له عواقب استراتيجية. يشجع الأبحاث على الإبلاغ ليس فقط عن الدقة، ولكن عن منحنيات الأداء عبر ميزانيات حساب مختلفة. النموذج الذي يبدو متوسطًا في إعداد منخفض الميزانية قد يصبح تنافسيًا للغاية بمجرد إعطائه مساحة للتفرع والتحقق. على العكس من ذلك، قد تشير النتيجة البراقة التي تم تحقيقها مع عينات heavy best-of-N إلى تفكير فعال أقل مما يبدو في البداية. مع نضوج المجتمع، يجب أن يتوقع القراء المزيد من الرسوم البيانية التي تظهر القدرة مقابل زمن الاستجابة، التكلفة، واستخدام Token، وليس مجرد رقم واحد في الأعلى.

ميزانيات التفكير وحلقات التحقق

لغة ميزانيات التفكير تنتشر لأنها تعطي مفردات أنقى لمناقشة هذه الأنظمة. قد تشمل ميزانية التفكير Token إضافية مولدة، مسارات متعددة مأخوذة، استدعاءات أدوات خارجية، أو تصحيح ذاتي تكراري. الفكرة الرئيسية هي أن النموذج لا يُحكم عليه فقط على إجابته الأولى، بل على ما يمكنه إنتاجه عندما يُسمح له بمقدار محدود من البحث الإضافي.

حلقات التحقق تدفع هذا المنطق إلى أبعد من ذلك. بدلاً من الثقة في نفس عملية التوليد لاقتراح وتقييم الإجابة، يفصل الباحثون بشكل متزايد الأدوار. نموذج أو عملية تولد المرشحين، وأخرى تفحصهم. في البرمجة، قد يكون المدقق unit tests. في الرياضيات، قد يكون فحصًا رمزيًا أو نموذجًا أقوى يعمل كناقد. في سير العمل الوكلية، قد يكون بيئة تؤكد ما إذا كانت المهمة قد اكتملت بالفعل. غالبًا ما تنتج هذه الحلقات مكاسب كبيرة لأن العديد من النماذج الحديثة تفشل ليس لأنها تفتقر إلى حدس مفيد، بل لأنها تفشل في اختيار المسار الصحيح بشكل موثوق في المحاولة الأولى.

لهذا السبب، تستحق ورقة بحثية تبلغ عن نتيجة جديدة مثيرة سؤالًا ثانيًا: ما هو المدقق؟ إذا كان المدقق قويًا للغاية، أو خاصًا بالمجال، أو مكلفًا، فإن النتيجة تعكس تصميم نظام كامل، وليس مجرد تحسين نموذج. هذا ليس عيبًا. غالبًا ما يكون الحدود الحقيقية. لكنه يغير كيفية تفسير النتيجة ومقارنتها.

طرق التقييم تتكيف، ببطء

تصميم Benchmark أصبح تحت ضغط للحاق بالركب. لوحات المتصدرين التقليدية غالبًا ما تتسطح المتغيرات الأكثر أهمية. قد يفشلون في الإبلاغ عن عدد المحاولات المأخوذة، سياسة الاختيار، إجمالي ميزانية Token، أو تحمل زمن الاستجابة. هذا يجعل المقارنات فوضوية. نموذج يُسمح له بالتفكير لدقائق واستدعاء أدوات يوضع بجانب نموذج مقيد بإجابة قصيرة مباشرة. كلا الرقمين قد يكونان صحيحين، لكنهما يمثلان منتجات مختلفة وادعاءات علمية مختلفة.

التقييمات الأفضل بدأت في تحديد القيود بشكل أكثر وضوحًا. بعض الأبحاث تبلغ عن pass@k بدلاً من pass@1، مما يجعل دور أخذ العينات المتكرر واضحًا. البعض الآخر يميز بين أداء النموذج الأساسي وأداء النظام المسقال. بعض التقييمات الآن تسأل عن مقدار الحساب الإضافي المطلوب لعبور عتبة، وهو غالبًا أكثر إفادة من السؤال عن من لديه أفضل درجة قصوى مفردة. هذه عادات أكثر صحة لأنها تكشف ما إذا كانت المكاسب تأتي من افتراضات أفضل، بحث أفضل، أو ببساطة رغبة أكبر في إنفاق Token.

كيف تقرأ ادعاءات Benchmark بعناية أكبر

بالنسبة للممارسين، الدرس الفوري بسيط: عندما ترى ادعاءًا بأحدث النتائج، ابحث عن الميزانية. اسأل عن عدد العينات التي تم سحبها، وما إذا كان مدقق قد صفي المخرجات، وما إذا تم استخدام أدوات، وما هي قيود زمن الاستجابة أو التكلفة التي تم افتراضها. نتيجة Benchmark بدون هذه التفاصيل تصف بشكل متزايد فقط قمة النظام. الجزء المخفي قد يكون يقوم بمعظم العمل.

من الجدير أيضًا التحقق مما إذا كانت الطريقة تتوسع بسلاسة. بعض الأساليب تتحسن فقط عندما يتم مضاعفة الحساب بقوة، وهو ما قد يكون جيدًا للبحث ولكنه غير عملي للإنتاج. البعض الآخر يكتسب بشكل ثابت من تفكير إضافي معتدل، مما يجعلها أكثر صلة بالأنظمة الحقيقية. الفرق مهم إذا كنت تهتم بالنشر وليس مسرح لوحة المتصدرين.

هناك تحول مفاهيمي أوسع هنا. تقدم الذكاء الاصطناعي يُقاس بشكل أقل كقطعة أثرية ثابتة وأكثر كسياسة لإنفاق الحساب. السؤال لم يعد فقط ما يعرفه النموذج بعد التدريب. بل أيضًا كيف يمكن للنظام استخدام الوقت الإضافي وToken والملاحظات لتحويل المعرفة الجزئية إلى إجابات موثوقة. هذا أقرب إلى كيفية تقييم البشر لحل المشكلات الصعبة أيضًا: ليس فقط الاستدعاء الخام، ولكن جودة البحث والفحص والتصحيح.

بهذه الطريقة، حسابات وقت الاستنتاج لا تحل محل مقياس النموذج كمحور بحثي. إنها تكملة، وفي بعض المجالات، تكشف عن المزيد من العمل الحقيقي. أقوى التقييمات المستقبلية ستبلغ على الأرجح عن كل من قدرة النموذج الأساسي وكفاءة تحويل النظام للحساب الإضافي إلى نتائج أفضل. حتى ذلك الحين، يجب على القراء التعامل مع أرقام Benchmark كقياسات على مستوى النظام مع افتراضات مخفية، وليس كانعكاسات نقية لحجم النموذج. هذه العقلية تؤدي إلى مقارنات أفضل، حكم أفضل على المنتج، ورؤية أكثر واقعية لمكان حدوث تقدم الذكاء الاصطناعي فعليًا.

حسابات وقت الاستنتاج تعيد تشكيل مقاييس تقدم الذكاء الاصطناعي

لماذا لم يعد عدد المعلمات كافيًا

حسابات وقت الاستنتاج أصبحت موردًا قابلًا للتحكم

ميزانيات التفكير وحلقات التحقق

طرق التقييم تتكيف، ببطء

كيف تقرأ ادعاءات Benchmark بعناية أكبر