مدل‌های زیر ۱۰ میلیارد پارامتر اکنون بارهای کاری تولیدی را اجرا می‌کنند که دو سال پیش نیازمند GPT-4 بود

شکاف معیارها سریع‌تر از آنچه انتظار می‌رفت بسته شده است

دو سال پیش، اگر به تولید کد قابل اعتماد، استدلال چندمرحله‌ای یا خلاصه‌سازی دقیق اسناد در محیط تولید نیاز داشتید، به مدلی با بیش از ۷۰ میلیارد پارامتر احتیاج داشتید – یا اینکه زمان اجاره‌ای روی API GPT-4 شرکت OpenAI می‌خریدید. امروز، Mistral 7B، Phi-3 Mini (3.8B)، Gemma 2 9B و Llama 3.2 3B همان وظایف را در محیط تولید با هزینه‌ای بسیار کمتر اجرا می‌کنند، اغلب روی سخت‌افزاری که در یک رک دیتاسنتر جا می‌گیرد – یا حتی روی لپ‌تاپ یک توسعه‌دهنده.

این یک متن تبلیغاتی نیست. در معیارهای مستقل انجام‌شده در اواخر ۲۰۲۴ و اوایل ۲۰۲۵، Phi-3 Mini از GPT-3.5 Turbo در MMLU، HumanEval و GSM8K – سه معیاری که مستقیماً درک زبان، ترکیب کد و استدلال ریاضی را اندازه‌گیری می‌کنند – پیشی گرفت. Gemma 2 9B با بسیاری از مدل‌های ۷۰ میلیارد پارامتری سال ۲۰۲۳ در همان مجموعه‌ها برابری کرد یا از آن‌ها پیشی گرفت. فشرده‌سازی قابلیت‌ها در تعداد پارامترهای کمتر به داستان تعیین‌کننده چرخه فعلی استقرار هوش مصنوعی تبدیل شده است.

آن‌چه واقعاً تغییر کرد: داده‌های آموزشی، معماری و تقطیر

جهش کیفیت SLM ناشی از یک پیشرفت واحد نیست. نتیجه ترکیبی سه بهبود موازی است که به‌طور همزمان به بلوغ رسیدند:

داده‌های آموزشی تنظیم‌شده و با سیگنال بالا: خانواده Phi مایکروسافت نشان داد که آموزش روی داده‌های مصنوعی دقیقاً فیلترشده (داده‌های «کیفیت کتاب درسی») به جای خزش وب خام می‌تواند مدل‌هایی تولید کند که بسیار فراتر از وزن پارامتری خود عمل کنند. Phi-1 (1.3B) در سال ۲۰۲۳ صرفاً بر اساس کیفیت داده، از مدل‌های بسیار بزرگتر در وظایف کدنویسی پایتون پیشی گرفت. Phi-3 Mini این رویکرد را به استدلال عمومی گسترش داد.
تقطیر دانش در مقیاس: مدل‌هایی مانند Llama 3.2 3B به‌طور مشخص برای تطبیق با توزیع خروجی هم‌خانواده‌های بزرگتر ۷۰ میلیارد پارامتری خود آموزش دیده‌اند. تقطیر «الگوهای فکری» یک مدل بزرگ را به مدلی کوچکتر منتقل می‌کند. وقتی متا Llama 3.2 را در سپتامبر ۲۰۲۴ منتشر کرد، انواع ۳B و 1B کاهش ۵۰-۶۰٪ در اندازه را با تنها ۱۰-۱۵٪ افت در معیارهای اصلی در مقایسه با ۸B نشان دادند.
بهبود کارایی معماری: توجه گروهی-پرس‌وجو (GQA)، توجه پنجره لغزان و توکنایزرهای بهتر به‌طور جمعی محاسبات مورد نیاز برای هر توکن را کاهش داده‌اند. توجه پنجره لغزان Mistral، به‌عنوان مثال، نیازهای حافظه را برای وظایف زمینه بلند به‌طور چشمگیری کاهش داد و مدل‌های ۷B را برای ورودی‌های به‌طول سند مناسب ساخت.

شواهد تولید: SLMها امروزه واقعاً کجا اجرا می‌شوند

معیارهای آزمایشگاهی کمتر از شواهد استقرار اهمیت دارند. در اینجا مواردی را می‌بینید که مدل‌های زیر ۱۰ میلیارد پارامتر جایگزین سیستم‌های بزرگتر در محیط‌های تولید واقعی شده‌اند:

پشتیبانی مشتری و دسته‌بندی

چندین شرکت، دسته‌بندی پشتیبانی سطح یک را از GPT-4 به مدل‌های fine-tuned شده Mistral 7B یا Llama 3 8B که به‌صورت محلی اجرا می‌شوند، منتقل کرده‌اند. معامله معمول: ۹۰-۹۵٪ دقت GPT-4 با ۸-۱۲٪ هزینه API، با تأخیر پاسخ زیر ۱۰۰ میلی‌ثانیه روی GPUهای A10G. برای خطوط لوله پشتیبانی با حجم بالا که میلیون‌ها تیکت ماهانه را پردازش می‌کنند، این ساختار هزینه تحول‌آفرین است.

تکمیل و بازبینی کد

تغییر معماری GitHub Copilot آموزنده است: این محصول اکنون تکمیل‌های ساده (تک‌خطی، نام متغیرها، کدهای تکراری) را به مدل‌های زیر ۷B هدایت می‌کند و رده ۷۰B+ را برای زمینه چندفایلی و بازآفرینی‌های پیچیده نگه می‌دارد. DeepSeek Coder 6.7B و CodeGemma 7B هر دو نمره HumanEval رقابتی بالای ۷۰٪ را نشان داده‌اند – قابل مقایسه با عملکرد کد GPT-4 اولیه در سال ۲۰۲۳.

استنتاج روی دستگاه و لبه

زیرساخت مدل روی‌دستگاهی اپل (معرفی‌شده با iOS 18 و macOS Sequoia) یک مدل حدود ۳ میلیارد پارامتری را به‌صورت محلی برای ابزارهای نوشتاری، بهبودهای Siri و خلاصه‌سازی اعلان‌ها اجرا می‌کند. Gemini Nano گوگل (انواع 1.8B و 3.25B) در سخت‌افزار Pixel 9 و Samsung Galaxy S25 جاسازی شده است. این استقرارها ۲۴ ماه پیش ممکن نبودند – نه به این دلیل که سخت‌افزار وجود نداشت، بلکه به این دلیل که هیچ مدلی به آن کوچکی نمی‌توانست خروجی مفید تولید کند.

خطوط لوله پردازش اسناد

خطوط لوله تولید-تقویت شده با بازیابی (RAG) که زمانی از GPT-4 به‌عنوان لایه ترکیب استفاده می‌کردند، به‌طور فزاینده‌ای به مدل‌های ۷-۹B تغییر می‌کنند. استدلال ساده است: وقتی به مدل زمینه بازیابی‌شده داده می‌شود، هوش خالص کمتر از وفاداری به پیروی از دستورالعمل اهمیت دارد. مدل‌های fine-tuned شده Mistral 7B و Llama 3 8B با پایبندی قوی به system prompt اکنون بازبینی قرارداد، تجزیه و تحلیل گزارش‌های مالی و خلاصه‌سازی سوابق پزشکی را در صنایع تنظیم‌شده انجام می‌دهند.

شکاف‌های باقی‌مانده: جایی که هنوز به یک مدل بزرگ نیاز دارید

صداقت فکری مستلزم نام بردن مواردی است که SLMها همچنان کوتاهی می‌کنند:

زنجیره‌های استدلال چندمرحله‌ای: وظایفی که به ۵+ مرحله منطق قیاسی نیاز دارند، به‌ویژه با حالات میانی مبهم، همچنان از مدل‌های ۷۰B+ سود می‌برند. راهنمایی زنجیره‌ای اندیشه به SLMها در اینجا کمک می‌کند، اما سقف واقعی است.
حوزه‌های دانش پراکنده: اگر کاربرد شما به دانش عمیق در یک تخصص محدود (انکولوژی پیشرفته، حوزه‌های قضایی مبهم، مهندسی تخصصی) نیاز دارد، مدل‌های بزرگتر پوشش وسیع‌تری دارند. Fine-tuning می‌تواند این شکاف را برای حوزه‌های شناخته‌شده پر کند، اما به داده نیاز دارد.
انسجام زمینه بلند: اگرچه مدل‌های ۷B اکنون از نظر فنی از پنجره‌های زمینه ۱۲۸K پشتیبانی می‌کنند، توانایی آن‌ها در حفظ استدلال منسجم در زمینه‌های بسیار طولانی سریع‌تر از معادل‌های ۷۰B+ کاهش می‌یابد. برای اسناد بیش از ۵۰K توکن، مدل‌های بزرگتر یادآوری و ثبات قابل‌اندازه‌گیری بهتری نشان می‌دهند.
تعمیم بدون نمونه: قالب‌های وظیفه جدید که در داده‌های آموزشی نبوده‌اند، نقاط ضعف SLM را سریع‌تر آشکار می‌کنند. اگر نمی‌توانید fine-tuning کنید و نمی‌توانید تنوع وظایف را پیش‌بینی کنید، یک مدل بزرگتر یک شبکه ایمنی بهتر است.

اقتصاد، تصمیم پیش‌فرض را تغییر داده است

حساب‌های هزینه، بار اثبات را معکوس کرده است. در سال ۲۰۲۳، به‌طور پیش‌فرض از GPT-4 استفاده می‌کردید و هزینه را با نشان دادن الزامات کیفیت توجیه می‌کردید. در سال ۲۰۲۵، سؤال پیش‌فرض این است: چرا برای این کار به مدلی بزرگتر از ۷B نیاز داریم؟

اجرای Llama 3 8B روی یک GPU A10G (تقریباً ۱.۵۰ دلار در ساعت در ابرهای اصلی) حدود ۰.۰۰۰۲ دلار به ازای هر ۱K توکن هزینه دارد – در مقایسه با ۰.۰۰۵ دلار GPT-4o به ازای هر ۱K توکن ورودی. برای یک خط لوله تولید که روزانه ۱۰۰ میلیون توکن پردازش می‌کند، این تفاوت بین ۲۰ دلار در روز و ۵۰۰ دلار در روز است. در مقیاس، انتخاب دیگر آکادمیک نیست.

مدل‌های وزن‌باز همچنین نگرانی‌های حریم خصوصی داده را که صنایع تنظیم‌شده را از ارسال اسناد حساس به APIهای خارجی بازمی‌داشت، برطرف می‌کنند. شرکت‌های بهداشتی و مالی که دو سال پیش نمی‌توانستند از LLMهای ابری استفاده کنند، اکنون مدل‌های ۷-۹B را در زیرساخت خود اجرا می‌کنند.

نکات عملی

هزینه فعلی LLM خود را بر اساس نوع وظیفه بررسی کنید. تماس‌های تولید خود را بر اساس پیچیدگی طبقه‌بندی کنید: وظایف مسیریابی، طبقه‌بندی و استخراج نامزدهای فوری برای جایگزینی SLM هستند. با تماس‌های با بالاترین حجم و کمترین پیچیدگی شروع کنید.
قبل از فرض کاهش کیفیت، معیار بگیرید. پرومپت‌های واقعی تولید خود را از طریق Llama 3 8B، Mistral 7B و Phi-3 Mini اجرا کنید قبل از اینکه نتیجه بگیرید به عملکرد کلاس GPT-4 نیاز دارید. برای بسیاری از وظایف، تفاوت کیفیت کمتر از حد انتظار است.
روی داده‌های حوزه، fine-tuning انجام دهید. یک مدل ۷B که روی ۱۰۰۰۰ مثال از حوزه خاص شما fine-tuning شده است، در آن حوزه از یک مدل عمومی ۷۰B بهتر عمل خواهد کرد. LoRA fine-tuning اکنون با ابزارهایی مانند Axolotl یا LLaMA-Factory در چند ساعت روی یک GPU اجرا می‌شود.
از یک لایه مسیریابی استفاده کنید. یک طبقه‌بندی سبک پیاده‌سازی کنید که پرس‌وجوهای ساده را به یک مدل ۳-۷B ارسال کند و درخواست‌های پیچیده را به یک مدل بزرگتر ارتقا دهد. این معماری ترکیبی بیشتر صرفه‌جویی در هزینه را به دست می‌آورد و در عین حال کیفیت موارد مرزی را حفظ می‌کند.
برای استقرار روی دستگاه برنامه‌ریزی کنید. اگر محصول شما به محیط‌های موبایل یا لبه می‌رسد، رده ۱-۴ میلیارد پارامتر اکنون واقعاً توانمند است. مدل‌هایی مانند Llama 3.2 1B و Gemini Nano 1.8B ارزش نمونه‌سازی اولیه را در برابر موارد استفاده موبایل شما دارند.