محاسبات زمان Inference و سنجش پیشرفت AI

برای سال‌ها، ساده‌ترین راه برای خلاصه کردن پیشرفت AI اشاره به مقیاس training بود. مدل‌های بزرگ‌تر، مجموعه داده‌های بزرگ‌تر، کلاسترهای GPU بزرگ‌تر و اجراهای training طولانی‌تر داستانی نسبتاً مستقیم را روایت می‌کردند: با افزایش تعداد پارامترها و بودجه pre-training، توانایی هم بالا می‌رفت. این چارچوب مفید بود، اما حالا به‌طور مشخص ناقص است. در کارهای سنگین استدلالی، محققان به آنچه بعد از training اتفاق می‌افتد توجه بیشتری می‌کنند؛ وقتی از مدل خواسته می‌شود یک مسئله را حل کند و می‌تواند compute اضافی را صرف جستجو، تأمل، تجزیه یا تأیید کند.

تغییر عملی مهم است چون معنی یک نتیجه Benchmark را عوض می‌کند. مدلی که در یک پاس به سؤال جواب می‌دهد، تحت شرایط مشابه سیستمی نیست که مجاز به نمونه‌برداری از چندین زنجیره فکر، فراخوانی ابزارها، اجرای یک verifier، یا صرف بودجه test-time بزرگ‌تر برای انتخاب باشد. در نتیجه، بسیاری از نمرات headline ترکیبی از توانایی مدل پایه و استراتژی inference هستند. اگر خوانندگان این لایه‌ها را جدا نکنند، به راحتی می‌توانند اشتباه بفهمند که پیشرفت از کجا می‌آید.

چرا تعداد پارامترها دیگر کافی نیست

تعداد پارامترها هنوز مهم است. مدل‌های بزرگ دانش جهانی گسترده‌تری، مهارت‌های نهفته بیشتر و priors قوی‌تری دارند. اما در بسیاری از ارزیابی‌های پیشرو، به‌ویژه در ریاضیات، کدنویسی، وظایف agentic و استدلال علمی، عملکرد خام یک‌شات دیگر سقف را نشان نمی‌دهد. محققان بارها دریافته‌اند که اگر مدل اجازه داشته باشد چندین راه‌حل کاندید تولید کند، آنها را نقد کند و با یک verifier یا reward model بینشان انتخاب کند، به‌طور قابل توجهی بهتر عمل می‌کند. به عبارت دیگر، توانایی فقط به آنچه در طول training فشرده شده بستگی ندارد، بلکه به این هم بستگی دارد که چقدر تفکر اضافی در زمان inference خریداری می‌شود.

این مهم است چون دو مدل با سابقه training مشابه می‌توانند وقتی بودجه استدلال معرفی می‌شود بسیار متفاوت به نظر برسند. یک مدل ممکن است با نمونه‌برداری مکرر به‌شدت بهبود یابد، در حالی که دیگری به سرعت به یک سقف می‌رسد. یکی ممکن است از استفاده از ابزار و بررسی خارجی سود ببرد، در حالی که دیگری عمدتاً همان حالت شکست را تکرار می‌کند. یعنی عادت قدیمی خواندن جدول نتایج به عنوان نماینده کیفیت pre-training در حال ضعیف شدن است. به طور فزاینده، جدول نشان‌دهنده تعامل بین مدل پایه، scaffold prompting، سیاست جستجو و verifier است.

محاسبه در زمان استنتاج به یک منبع قابل کنترل تبدیل می‌شود

محققان این چارچوب را دوست دارند چون compute زمان inference قابل تنظیم است. اجراهای training گران هستند و پس از تکمیل عمدتاً ثابت می‌مانند، اما بودجه test-time بسته به کار می‌تواند زیاد یا کم شود. یک سیستم می‌تواند توکن‌های بیشتری را صرف یک اثبات سخت المپیادی کند، کمتر برای خلاصه‌سازی معمولی، و فقط وقتی عدم قطعیت بالاست از compute انتخابی استفاده کند. این inference را به یک مسئله زمان‌بندی تبدیل می‌کند تا صرفاً یک عبور ثابت از یک شبکه.

این تغییر پیامدهای استراتژیک دارد. این مقاله‌ها را تشویق می‌کند که نه فقط accuracy، بلکه منحنی‌های عملکرد را در بودجه‌های مختلف compute گزارش دهند. مدلی که در یک تنظیم کم‌بودجه متوسط به نظر می‌رسد، ممکن است با فضای کافی برای انشعاب و تأیید بسیار رقابتی شود. برعکس، یک امتیاز چشمگیر به دست آمده با نمونه‌برداری سنگین best-of-N ممکن است کمتر از آنچه اول به نظر می‌رسد در مورد استدلال کارآمد بگوید. هرچه جامعه بالغ‌تر می‌شود، خوانندگان باید انتظار نمودارهای بیشتری را داشته باشند که توانایی در مقابل latency، هزینه و مصرف توکن را نشان می‌دهند، نه فقط یک عدد top-line.

بودجه استدلال و حلقه‌های verifier

زبان بودجه استدلال در حال گسترش است زیرا واژگان دقیق‌تری برای بحث در مورد این سیستم‌ها فراهم می‌کند. یک بودجه استدلال می‌تواند شامل توکن‌های تولیدی اضافی، چندین مسیر نمونه‌برداری شده، فراخوانی ابزار خارجی یا تصحیح خودکار تکراری باشد. ایده کلیدی این است که مدل فقط بر اساس اولین پاسخش قضاوت نمی‌شود، بلکه بر اساس آنچه می‌تواند وقتی مقدار محدودی جستجوی اضافی مجاز است تولید کند.

حلقه‌های verifier این منطق را جلوتر می‌برند. به جای اعتماد به همان فرآیند تولید برای پیشنهاد و ارزیابی یک پاسخ، محققان به طور فزاینده نقش‌ها را جدا می‌کنند. یک مدل یا فرآیند کاندیداها را تولید می‌کند، دیگری آنها را بررسی می‌کند. در کدنویسی، verifier ممکن است unit tests باشند. در ریاضی، ممکن است بررسی نمادین یا یک مدل قوی‌تر به عنوان منتقد باشد. در workflows agentic، ممکن است محیطی باشد که تأیید کند آیا کار واقعاً کامل شده است. این حلقه‌ها اغلب سودهای زیادی ایجاد می‌کنند چون بسیاری از مدل‌های مدرن بیشتر از نداشتن شهود مفید، از عدم انتخاب مطمئن مسیر درست در اولین تلاش شکست می‌خورند.

به همین دلیل است که وقتی مقاله‌ای یک نتیجه جدید چشمگیر را گزارش می‌دهد، شایسته یک سوال دوم است: verifier چه بود؟ اگر verifier بسیار قوی، domain-specific یا گران باشد، آنگاه نمره نشان‌دهنده یک طراحی کامل سیستم است، نه فقط یک بهبود مدل. این یک نقص نیست. اغلب مرز واقعی است. اما نحوه تفسیر و مقایسه نتیجه را تغییر می‌دهد.

روش‌های ارزیابی به کندی در حال تطبیق هستند

طراحی Benchmark اکنون تحت فشار است تا خود را بروز کند. جدول‌های رتبه‌بندی سنتی اغلب مهمترین متغیرها را صاف می‌کنند. آنها ممکن است تعداد تلاش‌های نمونه‌برداری شده، سیاست انتخاب، بودجه کل توکن یا تحمل latency را گزارش نکنند. این مقایسه‌ها را به هم ریخته می‌کند. مدلی که اجازه دارد دقیقه‌ها فکر کند و ابزارها را فراخوانی کند، در کنار مدلی قرار می‌گیرد که به یک پاسخ کوتاه مستقیم محدود شده است. هر دو عدد می‌توانند درست باشند، اما نشان‌دهنده محصولات مختلف و ادعاهای علمی مختلف هستند.

ارزیابی‌های بهتر شروع به مشخص کردن محدودیت‌ها به طور واضح‌تر کرده‌اند. برخی مقاله‌ها pass@k را به جای pass@1 گزارش می‌دهند و نقش نمونه‌برداری مکرر را آشکار می‌کنند. برخی دیگر بین عملکرد مدل پایه و عملکرد سیستم scaffolded تفاوت قائل می‌شوند. چند ارزیابی اکنون می‌پرسند چقدر compute اضافی برای عبور از یک آستانه لازم است، که اغلب از پرسیدن اینکه چه کسی بهترین نمره حداکثر را دارد آموزنده‌تر است. اینها عادت‌های سالم‌تری هستند چون نشان می‌دهند آیا دستاوردها از priors بهتر، جستجوی بهتر، یا صرفاً تمایل بیشتر به خرج توکن ناشی می‌شوند.

چگونه ادعاهای Benchmark را با دقت بیشتری بخوانیم

برای فعالان، درس فوری ساده است: وقتی یک ادعای state-of-the-art می‌بینید، به دنبال بودجه باشید. بپرسید چند نمونه کشیده شد، آیا یک verifier خروجی‌ها را فیلتر کرد، آیا از ابزارها استفاده شد، و چه محدودیت‌های latency یا هزینه فرض شد. یک نتیجه Benchmark بدون این جزئیات به طور فزاینده فقط نوک سیستم را توصیف می‌کند. قسمت پنهان ممکن است بیشتر کار را انجام دهد.

همچنین ارزش بررسی دارد که آیا روش به آرامی مقیاس می‌شود. برخی رویکردها فقط وقتی compute به شدت ضرب می‌شود بهبود می‌یابند، که ممکن است برای تحقیق خوب باشد اما برای production غیرعملی است. برخی دیگر به طور پیوسته از استدلال اضافی متوسط سود می‌برند و آنها را برای سیستم‌های واقعی مرتبط‌تر می‌کند. تفاوت اگر به استقرار اهمیت می‌دهید تا تئاتر leaderboard مهم است.

یک تغییر مفهومی گسترده‌تر اینجا وجود دارد. پیشرفت AI کمتر مانند یک مصنوع ایستا و بیشتر مانند یک سیاست برای خرج کردن compute اندازه‌گیری می‌شود. سوال دیگر فقط این نیست که مدل بعد از training چه می‌داند. بلکه این است که سیستم چقدر مؤثر می‌تواند از زمان، توکن و بازخورد اضافی استفاده کند تا دانش جزئی را به پاسخ‌های قابل اعتماد تبدیل کند. این به نحوه ارزیابی انسان از حل مسئله دشوار هم نزدیک‌تر است: نه فقط یادآوری خام، بلکه کیفیت جستجو، بررسی و تصحیح.

از این دیدگاه، compute زمان inference محور مقیاس مدل را به عنوان یک محور تحقیقاتی جایگزین نمی‌کند. آن را تکمیل می‌کند و در برخی حوزه‌ها، عمل واقعی را بیشتر آشکار می‌کند. قوی‌ترین ارزیابی‌های آینده احتمالاً هم توانایی مدل زیرین و هم کارایی تبدیل compute اضافی به نتایج بهتر را گزارش خواهند کرد. تا آن زمان، خوانندگان باید اعداد Benchmark را به عنوان اندازه‌گیری‌های سطح سیستم با مفروضات پنهان در نظر بگیرند، نه بازتاب خالص اندازه مدل. این طرز فکر منجر به مقایسه‌های بهتر، قضاوت محصول بهتر و دید واقعی‌تری از جایی که پیشرفت AI واقعاً اتفاق می‌افتد می‌شود.

محاسبه در زمان استنتاج نحوه اندازه‌گیری پیشرفت AI را تغییر می‌دهد

چرا تعداد پارامترها دیگر کافی نیست

محاسبه در زمان استنتاج به یک منبع قابل کنترل تبدیل می‌شود

بودجه استدلال و حلقه‌های verifier

روش‌های ارزیابی به کندی در حال تطبیق هستند

چگونه ادعاهای Benchmark را با دقت بیشتری بخوانیم