محاسبه در زمان استنتاج نحوه اندازهگیری پیشرفت AI را تغییر میدهد

برای سالها، سادهترین راه برای خلاصه کردن پیشرفت AI اشاره به مقیاس training بود. مدلهای بزرگتر، مجموعه دادههای بزرگتر، کلاسترهای GPU بزرگتر و اجراهای training طولانیتر داستانی نسبتاً مستقیم را روایت میکردند: با افزایش تعداد پارامترها و بودجه pre-training، توانایی هم بالا میرفت. این چارچوب مفید بود، اما حالا بهطور مشخص ناقص است. در کارهای سنگین استدلالی، محققان به آنچه بعد از training اتفاق میافتد توجه بیشتری میکنند؛ وقتی از مدل خواسته میشود یک مسئله را حل کند و میتواند compute اضافی را صرف جستجو، تأمل، تجزیه یا تأیید کند.
تغییر عملی مهم است چون معنی یک نتیجه Benchmark را عوض میکند. مدلی که در یک پاس به سؤال جواب میدهد، تحت شرایط مشابه سیستمی نیست که مجاز به نمونهبرداری از چندین زنجیره فکر، فراخوانی ابزارها، اجرای یک verifier، یا صرف بودجه test-time بزرگتر برای انتخاب باشد. در نتیجه، بسیاری از نمرات headline ترکیبی از توانایی مدل پایه و استراتژی inference هستند. اگر خوانندگان این لایهها را جدا نکنند، به راحتی میتوانند اشتباه بفهمند که پیشرفت از کجا میآید.
چرا تعداد پارامترها دیگر کافی نیست
تعداد پارامترها هنوز مهم است. مدلهای بزرگ دانش جهانی گستردهتری، مهارتهای نهفته بیشتر و priors قویتری دارند. اما در بسیاری از ارزیابیهای پیشرو، بهویژه در ریاضیات، کدنویسی، وظایف agentic و استدلال علمی، عملکرد خام یکشات دیگر سقف را نشان نمیدهد. محققان بارها دریافتهاند که اگر مدل اجازه داشته باشد چندین راهحل کاندید تولید کند، آنها را نقد کند و با یک verifier یا reward model بینشان انتخاب کند، بهطور قابل توجهی بهتر عمل میکند. به عبارت دیگر، توانایی فقط به آنچه در طول training فشرده شده بستگی ندارد، بلکه به این هم بستگی دارد که چقدر تفکر اضافی در زمان inference خریداری میشود.
این مهم است چون دو مدل با سابقه training مشابه میتوانند وقتی بودجه استدلال معرفی میشود بسیار متفاوت به نظر برسند. یک مدل ممکن است با نمونهبرداری مکرر بهشدت بهبود یابد، در حالی که دیگری به سرعت به یک سقف میرسد. یکی ممکن است از استفاده از ابزار و بررسی خارجی سود ببرد، در حالی که دیگری عمدتاً همان حالت شکست را تکرار میکند. یعنی عادت قدیمی خواندن جدول نتایج به عنوان نماینده کیفیت pre-training در حال ضعیف شدن است. به طور فزاینده، جدول نشاندهنده تعامل بین مدل پایه، scaffold prompting، سیاست جستجو و verifier است.
محاسبه در زمان استنتاج به یک منبع قابل کنترل تبدیل میشود
محققان این چارچوب را دوست دارند چون compute زمان inference قابل تنظیم است. اجراهای training گران هستند و پس از تکمیل عمدتاً ثابت میمانند، اما بودجه test-time بسته به کار میتواند زیاد یا کم شود. یک سیستم میتواند توکنهای بیشتری را صرف یک اثبات سخت المپیادی کند، کمتر برای خلاصهسازی معمولی، و فقط وقتی عدم قطعیت بالاست از compute انتخابی استفاده کند. این inference را به یک مسئله زمانبندی تبدیل میکند تا صرفاً یک عبور ثابت از یک شبکه.
این تغییر پیامدهای استراتژیک دارد. این مقالهها را تشویق میکند که نه فقط accuracy، بلکه منحنیهای عملکرد را در بودجههای مختلف compute گزارش دهند. مدلی که در یک تنظیم کمبودجه متوسط به نظر میرسد، ممکن است با فضای کافی برای انشعاب و تأیید بسیار رقابتی شود. برعکس، یک امتیاز چشمگیر به دست آمده با نمونهبرداری سنگین best-of-N ممکن است کمتر از آنچه اول به نظر میرسد در مورد استدلال کارآمد بگوید. هرچه جامعه بالغتر میشود، خوانندگان باید انتظار نمودارهای بیشتری را داشته باشند که توانایی در مقابل latency، هزینه و مصرف توکن را نشان میدهند، نه فقط یک عدد top-line.
بودجه استدلال و حلقههای verifier
زبان بودجه استدلال در حال گسترش است زیرا واژگان دقیقتری برای بحث در مورد این سیستمها فراهم میکند. یک بودجه استدلال میتواند شامل توکنهای تولیدی اضافی، چندین مسیر نمونهبرداری شده، فراخوانی ابزار خارجی یا تصحیح خودکار تکراری باشد. ایده کلیدی این است که مدل فقط بر اساس اولین پاسخش قضاوت نمیشود، بلکه بر اساس آنچه میتواند وقتی مقدار محدودی جستجوی اضافی مجاز است تولید کند.
حلقههای verifier این منطق را جلوتر میبرند. به جای اعتماد به همان فرآیند تولید برای پیشنهاد و ارزیابی یک پاسخ، محققان به طور فزاینده نقشها را جدا میکنند. یک مدل یا فرآیند کاندیداها را تولید میکند، دیگری آنها را بررسی میکند. در کدنویسی، verifier ممکن است unit tests باشند. در ریاضی، ممکن است بررسی نمادین یا یک مدل قویتر به عنوان منتقد باشد. در workflows agentic، ممکن است محیطی باشد که تأیید کند آیا کار واقعاً کامل شده است. این حلقهها اغلب سودهای زیادی ایجاد میکنند چون بسیاری از مدلهای مدرن بیشتر از نداشتن شهود مفید، از عدم انتخاب مطمئن مسیر درست در اولین تلاش شکست میخورند.
به همین دلیل است که وقتی مقالهای یک نتیجه جدید چشمگیر را گزارش میدهد، شایسته یک سوال دوم است: verifier چه بود؟ اگر verifier بسیار قوی، domain-specific یا گران باشد، آنگاه نمره نشاندهنده یک طراحی کامل سیستم است، نه فقط یک بهبود مدل. این یک نقص نیست. اغلب مرز واقعی است. اما نحوه تفسیر و مقایسه نتیجه را تغییر میدهد.
روشهای ارزیابی به کندی در حال تطبیق هستند
طراحی Benchmark اکنون تحت فشار است تا خود را بروز کند. جدولهای رتبهبندی سنتی اغلب مهمترین متغیرها را صاف میکنند. آنها ممکن است تعداد تلاشهای نمونهبرداری شده، سیاست انتخاب، بودجه کل توکن یا تحمل latency را گزارش نکنند. این مقایسهها را به هم ریخته میکند. مدلی که اجازه دارد دقیقهها فکر کند و ابزارها را فراخوانی کند، در کنار مدلی قرار میگیرد که به یک پاسخ کوتاه مستقیم محدود شده است. هر دو عدد میتوانند درست باشند، اما نشاندهنده محصولات مختلف و ادعاهای علمی مختلف هستند.
ارزیابیهای بهتر شروع به مشخص کردن محدودیتها به طور واضحتر کردهاند. برخی مقالهها pass@k را به جای pass@1 گزارش میدهند و نقش نمونهبرداری مکرر را آشکار میکنند. برخی دیگر بین عملکرد مدل پایه و عملکرد سیستم scaffolded تفاوت قائل میشوند. چند ارزیابی اکنون میپرسند چقدر compute اضافی برای عبور از یک آستانه لازم است، که اغلب از پرسیدن اینکه چه کسی بهترین نمره حداکثر را دارد آموزندهتر است. اینها عادتهای سالمتری هستند چون نشان میدهند آیا دستاوردها از priors بهتر، جستجوی بهتر، یا صرفاً تمایل بیشتر به خرج توکن ناشی میشوند.
چگونه ادعاهای Benchmark را با دقت بیشتری بخوانیم
برای فعالان، درس فوری ساده است: وقتی یک ادعای state-of-the-art میبینید، به دنبال بودجه باشید. بپرسید چند نمونه کشیده شد، آیا یک verifier خروجیها را فیلتر کرد، آیا از ابزارها استفاده شد، و چه محدودیتهای latency یا هزینه فرض شد. یک نتیجه Benchmark بدون این جزئیات به طور فزاینده فقط نوک سیستم را توصیف میکند. قسمت پنهان ممکن است بیشتر کار را انجام دهد.
همچنین ارزش بررسی دارد که آیا روش به آرامی مقیاس میشود. برخی رویکردها فقط وقتی compute به شدت ضرب میشود بهبود مییابند، که ممکن است برای تحقیق خوب باشد اما برای production غیرعملی است. برخی دیگر به طور پیوسته از استدلال اضافی متوسط سود میبرند و آنها را برای سیستمهای واقعی مرتبطتر میکند. تفاوت اگر به استقرار اهمیت میدهید تا تئاتر leaderboard مهم است.
یک تغییر مفهومی گستردهتر اینجا وجود دارد. پیشرفت AI کمتر مانند یک مصنوع ایستا و بیشتر مانند یک سیاست برای خرج کردن compute اندازهگیری میشود. سوال دیگر فقط این نیست که مدل بعد از training چه میداند. بلکه این است که سیستم چقدر مؤثر میتواند از زمان، توکن و بازخورد اضافی استفاده کند تا دانش جزئی را به پاسخهای قابل اعتماد تبدیل کند. این به نحوه ارزیابی انسان از حل مسئله دشوار هم نزدیکتر است: نه فقط یادآوری خام، بلکه کیفیت جستجو، بررسی و تصحیح.
از این دیدگاه، compute زمان inference محور مقیاس مدل را به عنوان یک محور تحقیقاتی جایگزین نمیکند. آن را تکمیل میکند و در برخی حوزهها، عمل واقعی را بیشتر آشکار میکند. قویترین ارزیابیهای آینده احتمالاً هم توانایی مدل زیرین و هم کارایی تبدیل compute اضافی به نتایج بهتر را گزارش خواهند کرد. تا آن زمان، خوانندگان باید اعداد Benchmark را به عنوان اندازهگیریهای سطح سیستم با مفروضات پنهان در نظر بگیرند، نه بازتاب خالص اندازه مدل. این طرز فکر منجر به مقایسههای بهتر، قضاوت محصول بهتر و دید واقعیتری از جایی که پیشرفت AI واقعاً اتفاق میافتد میشود.