رمزگشایی حدسی: چگونه مدلهای هوش مصنوعی بدون بزرگتر شدن سریعتر میشوند

گلوگاه سرعت در مدلهای زبانی بزرگ
مدلهای زبانی بزرگ متن را یک توکن در یک زمان تولید میکنند. هر توکن نیازمند یک گذر کامل به جلو از طریق مدلی است که ممکن است میلیاردها پارامتر داشته باشد، و این گذرها باید متوالی باشند — شما نمیتوانید توکن N+1 را تا زمانی که توکن N را ندارید تولید کنید. برای مدلی مانند GPT-4 یا Claude 3، این بدان معناست که استنتاج اساساً در سطح توکن سریال است و تأخیر را متناسب با طول خروجی میکند. این یک مشکل سختافزاری نیست. حتی در سریعترین GPUها با پهنای باند حافظه عالی، رمزگشایی خودرگرسیون به دیواری برخورد میکند زیرا معماری آن را ایجاب میکند. رمزگشایی حدسی این محدودیت را با تغییر آنچه مدل بزرگ در طول یک گذر به جلو انجام میدهد، کاملاً دور میزند.
رمزگشایی حدسی واقعاً چه کاری انجام میدهد
ایده اصلی بهطور فریبندهای ساده است: از یک مدل پیشنویس کوچک و سریع برای تولید حدسی یک دنباله از توکنهای کاندید استفاده کنید، سپس از مدل تأییدکننده بزرگ برای بررسی همه آنها در یک گذر به جلو موازی استفاده کنید. اگر مدل بزرگ با توکنهای پیشنویس موافق باشد، همه آنها را یکباره میپذیرید. اگر در موقعیت K مخالف باشد، توکنهای K به بعد را رد کرده و از توزیع مدل بزرگ در آن موقعیت دوباره نمونهگیری میکنید.
بینش حیاتی این است که گذر به جلو مدل بزرگ در حالت تأیید به طول خروجی محدود نیست — میتواند یک دسته از K توکن کاندید را تقریباً در همان زمانی پردازش کند که یک توکن واحد را برای تولید پردازش میکند. وقتی مدل پیشنویس دقیق است، شما K توکن را به قیمت یک گذر به جلو مدل بزرگ دریافت میکنید. وقتی مدل پیشنویس نادقیق است، مقداری کارایی را از دست میدهید اما هرگز کیفیت خروجی را به خطر نمیاندازید، زیرا تأییدکننده همترازی دقیق با توزیع مدل بزرگ را اعمال میکند.
بهطور رسمی، اگر مدل پیشنویس توکن x را در موقعیت i با احتمال q(x) پیشنهاد دهد، و مدل هدف احتمال p(x) را اختصاص دهد، آنگاه توکن با احتمال min(1, p(x)/q(x)) پذیرفته میشود. توکنهای رد شده از یک توزیع تصحیح شده (p - q) دوباره نمونهگیری میشوند. این طرح نمونهگیری رد تضمین میکند که توزیع خروجی نهایی با آنچه از اجرای مدل بزرگ به تنهایی به دست میآید یکسان است — رمزگشایی حدسی ذاتاً بدون افت است.
مدلهای پیشنویس: موتور پشت افزایش سرعت
کیفیت مدل پیشنویس همه چیز را تعیین میکند. یک مدل پیشنویس که به نرخ پذیرش توکن (TAR) ۸۰٪ در ورودیهای معمولی دست یابد، تقریباً ۳ تا ۴ برابر افزایش سرعت در دنبالههای طولانی ارائه میدهد. TAR ۶۰٪ منجر به ۱.۵ تا ۲ برابر میشود. زیر ۵۰٪، سربار اجرای هر دو مدل شروع به خوردن سود میکند.
دو رویکرد معماری در عمل غالب هستند:
- مدلهای کوچک مستقل: یک مدل جداگانه که روی همان دادههای مدل بزرگ آموزش دیده اما با کسری از اندازه. به عنوان مثال، استفاده از یک مدل ۷B به عنوان پیشنویس برای یک تأییدکننده ۷۰B. این رویکردی است که در مقاله اصلی رمزگشایی حدسی توسط Leviathan و همکاران (۲۰۲۳) استفاده شده و همچنان گستردهترین استقرار را دارد.
- سرهای Medusa: معماری Medusa گوگل چندین "سر" سبک وزن را مستقیماً به لایه نهایی مدل پایه اضافه میکند که هر کدام توکنها را در افستهای مختلف به آینده (موقعیت +۱، +۲، +۳ و غیره) در یک گذر به جلو پیشبینی میکنند. از آنجا که سرهای Medusa بازنماییهای مدل پایه را به اشتراک میگذارند، به نرخهای پذیرش بالاتری نسبت به یک مدل پیشنویس مستقل با همان هزینه محاسباتی دست مییابند. Medusa-2 این را با تنظیم دقیق مشترک سرها با مدل پایه بیشتر بهبود میبخشد.
رویکرد سوم، رمزگشایی حدسی خودکار، برخی از لایههای مدل بزرگ را در طول فاز پیشنویس رد میکند و از مدل کامل برای تأیید استفاده میکند. این کار نیاز به نگهداری یک مدل پیشنویس جداگانه را از بین میبرد اما نیاز به حذف دقیق برای تعیین اینکه کدام لایهها را میتوان بهطور ایمن در هر حوزه رد کرد، دارد.
پذیرش در دنیای واقعی: جایی که رمزگشایی حدسی مستقر شده است
رمزگشایی حدسی از تحقیق به تولید در سراسر هر آزمایشگاه بزرگ هوش مصنوعی حرکت کرده است. الگوی پذیرش گویاست: این یکی از معدود بهینهسازیهای استنتاج است که نیاز به آموزش مجدد مدل هدف ندارد و هیچ خطای تقریبی را معرفی نمیکند.
- Google DeepMind رمزگشایی حدسی را در زیرساخت سرویسدهی Gemini در سال ۲۰۲۴ ادغام کرد و بهبود ۲ برابری تأخیر در بارهای کاری مکالمه را گزارش داد. مدلهای پیشنویس داخلی آنها از مدلهای هدف تقطیر شدهاند که TAR بالاتری نسبت به مدلهای کوچک عمومی به آنها میدهد.
- SpecInfer متا این ایده را به حدس مبتنی بر درخت گسترش داد، جایی که مدل پیشنویس یک درخت از ادامههای ممکن را به جای یک دنباله واحد تولید میکند. تأییدکننده کل درخت را در یک گذر پردازش میکند و طولانیترین مسیر پذیرفته شده را انتخاب میکند. این رویکرد بهطور مداوم از حدس تکدنبالهای زمانی که مدل پیشنویس عدم قطعیت بالاتری دارد، بهتر عمل میکند.
- Hugging Face / vLLM / TensorRT-LLM همه رمزگشایی حدسی را به عنوان یک ویژگی سرویسدهی درجه یک ارائه میدهند. در vLLM، فعالسازی حدس مدل پیشنویس نیاز به یک پارامتر پیکربندی واحد دارد و بهطور شفاف در اندازههای دسته کار میکند.
- اپل از یک نوع برای استنتاج روی دستگاه در Apple Intelligence استفاده میکند، جایی که مدل پیشنویس روی موتور عصبی و تأییدکننده روی GPU اجرا میشود — با بهرهبرداری از سختافزار ناهمگن برای دستیابی به سرعت و کیفیت.
افزایش سرعت تولید گزارش شده از ۱.۵ برابر تا ۳ برابر بسته به طول خروجی، حوزه و کیفیت مدل پیشنویس متغیر است. تولید کد و خروجیهای ساختاریافته تمایل به دیدن بالاترین نرخهای پذیرش دارند زیرا توزیع قابل پیشبینیتر است. متن خلاقانه باز نرخهای پذیرش کمتری میبیند زیرا توزیع مدل بزرگ مسطحتر است و حدسهای پیشنویس را کمتر قابل اعتماد میکند.
نرخهای پذیرش توکن و محدودیتهای عملی
نرخ پذیرش توکن ثابت نیست — بسته به حوزه، پرامپت و معماری مدل پیشنویس متفاوت است. نتایج تجربی در معیارهای رایج:
- تکمیل کد (HumanEval، MBPP): TAR معمولاً ۷۵–۸۵٪، افزایش سرعت ۲.۵–۳.۵ برابر
- خلاصهسازی (CNN/DM، XSum): TAR ۶۵–۷۵٪، افزایش سرعت ۲–۲.۵ برابر
- چت باز: TAR ۵۵–۷۰٪، افزایش سرعت ۱.۵–۲ برابر
- ترجمه: TAR ۷۰–۸۰٪، افزایش سرعت ۲–۳ برابر
محدودیتهای عملی اصلی عبارتند از:
- سربار حافظه: اجرای همزمان دو مدل نیاز به نگهداری هر دو در حافظه GPU دارد. برای یک تأییدکننده ۷۰B، افزودن یک پیشنویس ۷B تقریباً ۱۰٪ حافظه بیشتر مصرف میکند — قابل مدیریت، اما یک محدودیت در استقرارهای محدود به حافظه.
- مقیاسپذیری اندازه دسته: مزیت رمزگشایی حدسی با افزایش اندازه دسته کاهش مییابد. در اندازه دسته ۱ (استنتاج بلادرنگ تککاربره)، سود حداکثر است. در اندازههای دسته بزرگ، استفاده از GPU مدل بزرگ از قبل بالا است و سربار اجرای مدل پیشنویس برای منابع محاسباتی رقابت میکند.
- کهنگی مدل پیشنویس: اگر مدل هدف بهروز شود (تنظیم دقیق، RLHF)، مدل پیشنویس ممکن است در توزیع واگرا شود و نرخهای پذیرش کاهش یابد. حفظ همترازی پیشنویس-تأییدکننده در طول بهروزرسانیهای مدل یک هزینه عملیاتی واقعی است.
فراتر از رمزگشایی حدسی: رمزگشایی نگاه به جلو و ژاکوبی
دو تکنیک مرتبط در سال ۲۰۲۵ بهطور برجسته ظهور کردند که برخی از محدودیتهای رمزگشایی حدسی، بهویژه نیاز به یک مدل پیشنویس جداگانه را برطرف میکنند.
رمزگشایی نگاه به جلو (توسعه یافته در LMSYS و ادغام شده در SGLang) استنتاج را به دو جریان موازی تجزیه میکند: یک شاخه نگاه به جلو که n-gramها را بهطور حدسی با استفاده از تکرار ژاکوبی تولید میکند، و یک شاخه تأیید که n-gramهای صحیح را از یک حافظه پنهان انتخاب میکند. هیچ مدل پیشنویسی لازم نیست. در عوض، این روش از این واقعیت بهره میبرد که تکرار ژاکوبی روی دنبالههای توکن برای دنبالههایی که بهطور طبیعی در توزیع آموزشی مدل ظاهر میشوند، به سرعت همگرا میشود. رمزگشایی نگاه به جلو به ۱.۵ تا ۲.۳ برابر افزایش سرعت در یک GPU واحد بدون هیچ وزن مدل اضافی دست مییابد.
رمزگشایی ژاکوبی پایه ریاضی زیربنای نگاه به جلو است. به جای حلقه رمزگشایی متوالی استاندارد، همه موقعیتهای خروجی را بهطور همزمان با توکنهای تصادفی مقداردهی اولیه میکند و سپس تکرارهای نقطه ثابت موازی را تا زمانی که دنباله پایدار شود اعمال میکند. هر تکرار همه موقعیتها را بهطور موازی با استفاده از مدل بزرگ بهروز میکند و بهطور مؤثر یک مسئله متوالی را به یک مسئله تکراری تبدیل میکند. همگرایی در عمل سریع است (۲–۴ تکرار برای اکثر دنبالهها)، و توزیع نهایی با رمزگشایی خودرگرسیون یکسان است.
EAGLE-2 (۲۰۲۵) رویکرد Medusa را با تطبیقی کردن حدس گسترش داد: مدل پیشنویس یک ساختار درختی پویا بر اساس نمرات اطمینان تولید میکند و کاندیدهای بیشتری را به موقعیتهای نامطمئن اختصاص میدهد. EAGLE-2 به ۳.۵ برابر افزایش سرعت در LLaMA-3-70B-Instruct دست یافت، که بالاترین عدد منتشر شده برای یک راهاندازی سرویسدهی تکمدل در آن مقیاس است.
در سال ۲۰۲۶، تمرکز به حدس چندمرحلهای با تضمینهای سازگاری تغییر کرده است — سیستمهایی که ۲–۳ دور حدس در هر مرحله تأیید اجرا میکنند و نسبت توکنها به گذر به جلو را بدون شکستن خاصیت بدون افت افزایش میدهند. به گزارش، پشته سرویسدهی Gemini داخلی گوگل از یک آبشار سهسطحی استفاده میکند: یک مدل کوچک (۱B)، یک مدل متوسط (۸B) و تأییدکننده کامل، که در آن مدل متوسط هم به عنوان تأییدکننده برای مدل کوچک و هم به عنوان پیشنویس برای تأییدکننده کامل عمل میکند.
مهندسان اکنون چه باید بکنند
اگر در حال ساخت یا بهرهبرداری از زیرساخت استنتاج LLM هستید، رمزگشایی حدسی باید برای هر بار کاری حساس به تأخیر در رادار شما باشد. مراحل مشخص:
- ابتدا نمایه اندازه دسته خود را ارزیابی کنید. اگر درخواستهای همزمان p95 در هر نسخه زیر ۸ باشد، رمزگشایی حدسی تقریباً قطعاً کمک خواهد کرد. بالای ۳۲، سود ممکن است ناچیز باشد و سربار حافظه ممکن است ارزش آن را نداشته باشد.
- از vLLM یا SGLang به عنوان نقطه شروع خود استفاده کنید. هر دو رمزگشایی حدسی آماده تولید را ارائه میدهند. در vLLM،
--speculative-modelو--num-speculative-tokensرا تنظیم کنید. قبل از تنظیم، TAR را در ترافیک تولید واقعی خود اندازهگیری کنید. - برای استقرارهای روی دستگاه یا لبه، رمزگشایی نگاه به جلو اغلب عملیتر از نگهداری دو فایل مدل است. پیادهسازی نگاه به جلو SGLang بدون هیچ وزن اضافی کار میکند.
- TAR خاص حوزه را نمایه کنید. اگر در حال سرویسدهی یک حوزه محدود (حقوقی، پزشکی، کد) هستید، یک مدل پیشنویس تنظیم دقیق شده حوزه بهطور قابل توجهی بهتر از یک مدل عمومی عمل میکند. سرمایهگذاری در تنظیم دقیق یک مدل پیشنویس ۱B–۳B اغلب در هفتهها در مقیاس بازدهی دارد.
- اکوسیستمهای EAGLE-2 و MEDUSA-2 را زیر نظر داشته باشید. اینها به سرعت در حال حرکت هستند. اگر مدل هدف شما در خانواده LLaMA یا Mistral است، سرهای پیشنویس آموزش دیده توسط جامعه از قبل در Hugging Face موجود هستند و نیاز به سرمایهگذاری آموزشی ندارند.
رمزگشایی حدسی به اندازه کافی بالغ است که امروزه در تولید استفاده شود و در تحقیق به اندازه کافی فعال است که بهترین پیادهسازیها در سال ۲۰۲۶ احتمالاً بهطور قابل توجهی با آنچه اکنون وجود دارد متفاوت خواهند بود. اصل اصلی — تأیید بهطور موازی، تولید بهطور حدسی — برای ماندن است. معماریهای مدل پیشنویس و استراتژیهای حدس روی آن هنوز به سرعت در حال تکامل هستند.