رمزگشایی حدسی: چگونه مدل‌های هوش مصنوعی بدون بزرگ‌تر شدن سریع‌تر می‌شوند

گلوگاه سرعت در مدل‌های زبانی بزرگ

مدل‌های زبانی بزرگ متن را یک توکن در یک زمان تولید می‌کنند. هر توکن نیازمند یک گذر کامل به جلو از طریق مدلی است که ممکن است میلیاردها پارامتر داشته باشد، و این گذرها باید متوالی باشند — شما نمی‌توانید توکن N+1 را تا زمانی که توکن N را ندارید تولید کنید. برای مدلی مانند GPT-4 یا Claude 3، این بدان معناست که استنتاج اساساً در سطح توکن سریال است و تأخیر را متناسب با طول خروجی می‌کند. این یک مشکل سخت‌افزاری نیست. حتی در سریع‌ترین GPUها با پهنای باند حافظه عالی، رمزگشایی خودرگرسیون به دیواری برخورد می‌کند زیرا معماری آن را ایجاب می‌کند. رمزگشایی حدسی این محدودیت را با تغییر آنچه مدل بزرگ در طول یک گذر به جلو انجام می‌دهد، کاملاً دور می‌زند.

رمزگشایی حدسی واقعاً چه کاری انجام می‌دهد

ایده اصلی به‌طور فریبنده‌ای ساده است: از یک مدل پیش‌نویس کوچک و سریع برای تولید حدسی یک دنباله از توکن‌های کاندید استفاده کنید، سپس از مدل تأییدکننده بزرگ برای بررسی همه آن‌ها در یک گذر به جلو موازی استفاده کنید. اگر مدل بزرگ با توکن‌های پیش‌نویس موافق باشد، همه آن‌ها را یکباره می‌پذیرید. اگر در موقعیت K مخالف باشد، توکن‌های K به بعد را رد کرده و از توزیع مدل بزرگ در آن موقعیت دوباره نمونه‌گیری می‌کنید.

بینش حیاتی این است که گذر به جلو مدل بزرگ در حالت تأیید به طول خروجی محدود نیست — می‌تواند یک دسته از K توکن کاندید را تقریباً در همان زمانی پردازش کند که یک توکن واحد را برای تولید پردازش می‌کند. وقتی مدل پیش‌نویس دقیق است، شما K توکن را به قیمت یک گذر به جلو مدل بزرگ دریافت می‌کنید. وقتی مدل پیش‌نویس نادقیق است، مقداری کارایی را از دست می‌دهید اما هرگز کیفیت خروجی را به خطر نمی‌اندازید، زیرا تأییدکننده هم‌ترازی دقیق با توزیع مدل بزرگ را اعمال می‌کند.

به‌طور رسمی، اگر مدل پیش‌نویس توکن x را در موقعیت i با احتمال q(x) پیشنهاد دهد، و مدل هدف احتمال p(x) را اختصاص دهد، آنگاه توکن با احتمال min(1, p(x)/q(x)) پذیرفته می‌شود. توکن‌های رد شده از یک توزیع تصحیح شده (p - q) دوباره نمونه‌گیری می‌شوند. این طرح نمونه‌گیری رد تضمین می‌کند که توزیع خروجی نهایی با آنچه از اجرای مدل بزرگ به تنهایی به دست می‌آید یکسان است — رمزگشایی حدسی ذاتاً بدون افت است.

مدل‌های پیش‌نویس: موتور پشت افزایش سرعت

کیفیت مدل پیش‌نویس همه چیز را تعیین می‌کند. یک مدل پیش‌نویس که به نرخ پذیرش توکن (TAR) ۸۰٪ در ورودی‌های معمولی دست یابد، تقریباً ۳ تا ۴ برابر افزایش سرعت در دنباله‌های طولانی ارائه می‌دهد. TAR ۶۰٪ منجر به ۱.۵ تا ۲ برابر می‌شود. زیر ۵۰٪، سربار اجرای هر دو مدل شروع به خوردن سود می‌کند.

دو رویکرد معماری در عمل غالب هستند:

مدل‌های کوچک مستقل: یک مدل جداگانه که روی همان داده‌های مدل بزرگ آموزش دیده اما با کسری از اندازه. به عنوان مثال، استفاده از یک مدل ۷B به عنوان پیش‌نویس برای یک تأییدکننده ۷۰B. این رویکردی است که در مقاله اصلی رمزگشایی حدسی توسط Leviathan و همکاران (۲۰۲۳) استفاده شده و همچنان گسترده‌ترین استقرار را دارد.
سرهای Medusa: معماری Medusa گوگل چندین "سر" سبک وزن را مستقیماً به لایه نهایی مدل پایه اضافه می‌کند که هر کدام توکن‌ها را در افست‌های مختلف به آینده (موقعیت +۱، +۲، +۳ و غیره) در یک گذر به جلو پیش‌بینی می‌کنند. از آنجا که سرهای Medusa بازنمایی‌های مدل پایه را به اشتراک می‌گذارند، به نرخ‌های پذیرش بالاتری نسبت به یک مدل پیش‌نویس مستقل با همان هزینه محاسباتی دست می‌یابند. Medusa-2 این را با تنظیم دقیق مشترک سرها با مدل پایه بیشتر بهبود می‌بخشد.

رویکرد سوم، رمزگشایی حدسی خودکار، برخی از لایه‌های مدل بزرگ را در طول فاز پیش‌نویس رد می‌کند و از مدل کامل برای تأیید استفاده می‌کند. این کار نیاز به نگهداری یک مدل پیش‌نویس جداگانه را از بین می‌برد اما نیاز به حذف دقیق برای تعیین اینکه کدام لایه‌ها را می‌توان به‌طور ایمن در هر حوزه رد کرد، دارد.

پذیرش در دنیای واقعی: جایی که رمزگشایی حدسی مستقر شده است

رمزگشایی حدسی از تحقیق به تولید در سراسر هر آزمایشگاه بزرگ هوش مصنوعی حرکت کرده است. الگوی پذیرش گویاست: این یکی از معدود بهینه‌سازی‌های استنتاج است که نیاز به آموزش مجدد مدل هدف ندارد و هیچ خطای تقریبی را معرفی نمی‌کند.

Google DeepMind رمزگشایی حدسی را در زیرساخت سرویس‌دهی Gemini در سال ۲۰۲۴ ادغام کرد و بهبود ۲ برابری تأخیر در بارهای کاری مکالمه را گزارش داد. مدل‌های پیش‌نویس داخلی آن‌ها از مدل‌های هدف تقطیر شده‌اند که TAR بالاتری نسبت به مدل‌های کوچک عمومی به آن‌ها می‌دهد.
SpecInfer متا این ایده را به حدس مبتنی بر درخت گسترش داد، جایی که مدل پیش‌نویس یک درخت از ادامه‌های ممکن را به جای یک دنباله واحد تولید می‌کند. تأییدکننده کل درخت را در یک گذر پردازش می‌کند و طولانی‌ترین مسیر پذیرفته شده را انتخاب می‌کند. این رویکرد به‌طور مداوم از حدس تک‌دنباله‌ای زمانی که مدل پیش‌نویس عدم قطعیت بالاتری دارد، بهتر عمل می‌کند.
Hugging Face / vLLM / TensorRT-LLM همه رمزگشایی حدسی را به عنوان یک ویژگی سرویس‌دهی درجه یک ارائه می‌دهند. در vLLM، فعال‌سازی حدس مدل پیش‌نویس نیاز به یک پارامتر پیکربندی واحد دارد و به‌طور شفاف در اندازه‌های دسته کار می‌کند.
اپل از یک نوع برای استنتاج روی دستگاه در Apple Intelligence استفاده می‌کند، جایی که مدل پیش‌نویس روی موتور عصبی و تأییدکننده روی GPU اجرا می‌شود — با بهره‌برداری از سخت‌افزار ناهمگن برای دستیابی به سرعت و کیفیت.

افزایش سرعت تولید گزارش شده از ۱.۵ برابر تا ۳ برابر بسته به طول خروجی، حوزه و کیفیت مدل پیش‌نویس متغیر است. تولید کد و خروجی‌های ساختاریافته تمایل به دیدن بالاترین نرخ‌های پذیرش دارند زیرا توزیع قابل پیش‌بینی‌تر است. متن خلاقانه باز نرخ‌های پذیرش کمتری می‌بیند زیرا توزیع مدل بزرگ مسطح‌تر است و حدس‌های پیش‌نویس را کمتر قابل اعتماد می‌کند.

نرخ‌های پذیرش توکن و محدودیت‌های عملی

نرخ پذیرش توکن ثابت نیست — بسته به حوزه، پرامپت و معماری مدل پیش‌نویس متفاوت است. نتایج تجربی در معیارهای رایج:

تکمیل کد (HumanEval، MBPP): TAR معمولاً ۷۵–۸۵٪، افزایش سرعت ۲.۵–۳.۵ برابر
خلاصه‌سازی (CNN/DM، XSum): TAR ۶۵–۷۵٪، افزایش سرعت ۲–۲.۵ برابر
چت باز: TAR ۵۵–۷۰٪، افزایش سرعت ۱.۵–۲ برابر
ترجمه: TAR ۷۰–۸۰٪، افزایش سرعت ۲–۳ برابر

محدودیت‌های عملی اصلی عبارتند از:

سربار حافظه: اجرای هم‌زمان دو مدل نیاز به نگهداری هر دو در حافظه GPU دارد. برای یک تأییدکننده ۷۰B، افزودن یک پیش‌نویس ۷B تقریباً ۱۰٪ حافظه بیشتر مصرف می‌کند — قابل مدیریت، اما یک محدودیت در استقرارهای محدود به حافظه.
مقیاس‌پذیری اندازه دسته: مزیت رمزگشایی حدسی با افزایش اندازه دسته کاهش می‌یابد. در اندازه دسته ۱ (استنتاج بلادرنگ تک‌کاربره)، سود حداکثر است. در اندازه‌های دسته بزرگ، استفاده از GPU مدل بزرگ از قبل بالا است و سربار اجرای مدل پیش‌نویس برای منابع محاسباتی رقابت می‌کند.
کهنگی مدل پیش‌نویس: اگر مدل هدف به‌روز شود (تنظیم دقیق، RLHF)، مدل پیش‌نویس ممکن است در توزیع واگرا شود و نرخ‌های پذیرش کاهش یابد. حفظ هم‌ترازی پیش‌نویس-تأییدکننده در طول به‌روزرسانی‌های مدل یک هزینه عملیاتی واقعی است.

فراتر از رمزگشایی حدسی: رمزگشایی نگاه به جلو و ژاکوبی

دو تکنیک مرتبط در سال ۲۰۲۵ به‌طور برجسته ظهور کردند که برخی از محدودیت‌های رمزگشایی حدسی، به‌ویژه نیاز به یک مدل پیش‌نویس جداگانه را برطرف می‌کنند.

رمزگشایی نگاه به جلو (توسعه یافته در LMSYS و ادغام شده در SGLang) استنتاج را به دو جریان موازی تجزیه می‌کند: یک شاخه نگاه به جلو که n-gramها را به‌طور حدسی با استفاده از تکرار ژاکوبی تولید می‌کند، و یک شاخه تأیید که n-gramهای صحیح را از یک حافظه پنهان انتخاب می‌کند. هیچ مدل پیش‌نویسی لازم نیست. در عوض، این روش از این واقعیت بهره می‌برد که تکرار ژاکوبی روی دنباله‌های توکن برای دنباله‌هایی که به‌طور طبیعی در توزیع آموزشی مدل ظاهر می‌شوند، به سرعت همگرا می‌شود. رمزگشایی نگاه به جلو به ۱.۵ تا ۲.۳ برابر افزایش سرعت در یک GPU واحد بدون هیچ وزن مدل اضافی دست می‌یابد.

رمزگشایی ژاکوبی پایه ریاضی زیربنای نگاه به جلو است. به جای حلقه رمزگشایی متوالی استاندارد، همه موقعیت‌های خروجی را به‌طور هم‌زمان با توکن‌های تصادفی مقداردهی اولیه می‌کند و سپس تکرارهای نقطه ثابت موازی را تا زمانی که دنباله پایدار شود اعمال می‌کند. هر تکرار همه موقعیت‌ها را به‌طور موازی با استفاده از مدل بزرگ به‌روز می‌کند و به‌طور مؤثر یک مسئله متوالی را به یک مسئله تکراری تبدیل می‌کند. همگرایی در عمل سریع است (۲–۴ تکرار برای اکثر دنباله‌ها)، و توزیع نهایی با رمزگشایی خودرگرسیون یکسان است.

EAGLE-2 (۲۰۲۵) رویکرد Medusa را با تطبیقی کردن حدس گسترش داد: مدل پیش‌نویس یک ساختار درختی پویا بر اساس نمرات اطمینان تولید می‌کند و کاندیدهای بیشتری را به موقعیت‌های نامطمئن اختصاص می‌دهد. EAGLE-2 به ۳.۵ برابر افزایش سرعت در LLaMA-3-70B-Instruct دست یافت، که بالاترین عدد منتشر شده برای یک راه‌اندازی سرویس‌دهی تک‌مدل در آن مقیاس است.

در سال ۲۰۲۶، تمرکز به حدس چندمرحله‌ای با تضمین‌های سازگاری تغییر کرده است — سیستم‌هایی که ۲–۳ دور حدس در هر مرحله تأیید اجرا می‌کنند و نسبت توکن‌ها به گذر به جلو را بدون شکستن خاصیت بدون افت افزایش می‌دهند. به گزارش، پشته سرویس‌دهی Gemini داخلی گوگل از یک آبشار سه‌سطحی استفاده می‌کند: یک مدل کوچک (۱B)، یک مدل متوسط (۸B) و تأییدکننده کامل، که در آن مدل متوسط هم به عنوان تأییدکننده برای مدل کوچک و هم به عنوان پیش‌نویس برای تأییدکننده کامل عمل می‌کند.

مهندسان اکنون چه باید بکنند

اگر در حال ساخت یا بهره‌برداری از زیرساخت استنتاج LLM هستید، رمزگشایی حدسی باید برای هر بار کاری حساس به تأخیر در رادار شما باشد. مراحل مشخص:

ابتدا نمایه اندازه دسته خود را ارزیابی کنید. اگر درخواست‌های هم‌زمان p95 در هر نسخه زیر ۸ باشد، رمزگشایی حدسی تقریباً قطعاً کمک خواهد کرد. بالای ۳۲، سود ممکن است ناچیز باشد و سربار حافظه ممکن است ارزش آن را نداشته باشد.
از vLLM یا SGLang به عنوان نقطه شروع خود استفاده کنید. هر دو رمزگشایی حدسی آماده تولید را ارائه می‌دهند. در vLLM، --speculative-model و --num-speculative-tokens را تنظیم کنید. قبل از تنظیم، TAR را در ترافیک تولید واقعی خود اندازه‌گیری کنید.
برای استقرارهای روی دستگاه یا لبه، رمزگشایی نگاه به جلو اغلب عملی‌تر از نگهداری دو فایل مدل است. پیاده‌سازی نگاه به جلو SGLang بدون هیچ وزن اضافی کار می‌کند.
TAR خاص حوزه را نمایه کنید. اگر در حال سرویس‌دهی یک حوزه محدود (حقوقی، پزشکی، کد) هستید، یک مدل پیش‌نویس تنظیم دقیق شده حوزه به‌طور قابل توجهی بهتر از یک مدل عمومی عمل می‌کند. سرمایه‌گذاری در تنظیم دقیق یک مدل پیش‌نویس ۱B–۳B اغلب در هفته‌ها در مقیاس بازدهی دارد.
اکوسیستم‌های EAGLE-2 و MEDUSA-2 را زیر نظر داشته باشید. این‌ها به سرعت در حال حرکت هستند. اگر مدل هدف شما در خانواده LLaMA یا Mistral است، سرهای پیش‌نویس آموزش دیده توسط جامعه از قبل در Hugging Face موجود هستند و نیاز به سرمایه‌گذاری آموزشی ندارند.

رمزگشایی حدسی به اندازه کافی بالغ است که امروزه در تولید استفاده شود و در تحقیق به اندازه کافی فعال است که بهترین پیاده‌سازی‌ها در سال ۲۰۲۶ احتمالاً به‌طور قابل توجهی با آنچه اکنون وجود دارد متفاوت خواهند بود. اصل اصلی — تأیید به‌طور موازی، تولید به‌طور حدسی — برای ماندن است. معماری‌های مدل پیش‌نویس و استراتژی‌های حدس روی آن هنوز به سرعت در حال تکامل هستند.