جمینی ۲.۰ گوگل قوانین جستجوی چندوجهی را بازنویسی کرد

جهش چندوجهی: از پرس‌وجوهای متنی تا درک زمینه

در دسامبر ۲۰۲۴، گوگل از جمینی ۲.۰ رونمایی کرد که یک تغییر اساسی در نحوه پردازش و بازیابی اطلاعات توسط موتورهای جستجو به شمار می‌رود. برخلاف نسخه قبلی یعنی جمینی ۱.۵ پرو که متن، تصاویر، صدا و ویدیو را در خطوط لوله جداگانه مدیریت می‌کرد، جمینی ۲.۰ به صورت بومی این حالت‌ها را در یک موتور استدلال واحد ادغام می‌کند. این مدل می‌تواند پرس‌وجوی کاربر را که ترکیبی از عکس یک زنجیر دوچرخه شکسته، یادداشت صوتی با سوال «چه ابزاری نیاز دارم؟» و یک لیست دست نویس از قطعات دوچرخه است، تجزیه و تحلیل کند و به‌طور دقیق یک ابزار زنجیرشکن را به همراه لینک فروشگاه‌های سخت‌افزاری نزدیک (مثلاً Ace Hardware) و یک راهنمای مونتاژ سه بعدی از Park Tool پیشنهاد دهد. آزمایش‌های اولیه داخلی گوگل نشان می‌دهد که جمینی ۲.۰ نرخ شکست پرس‌وجوهای چندوجهی را در مقایسه با API نسخه ۱.۵ تا ۳۸٪ کاهش داده است. این آمار بر اساس یک یادداشت عملکرد لو رفته که توسط The Verge در اواخر ۲۰۲۴ به دست آمده است.

درک ویدیوی زنده: یک جهش کوانتومی فراتر از جستجوی استاتیک

یکی از مهم‌ترین تغییرات قوانین، توانایی جمینی ۲.۰ در پردازش استریم‌های ویدیویی زنده است. جایی که رقبایی مانند GPT-4 Turbo از OpenAI (راه‌اندازی شده در نوامبر ۲۰۲۳) می‌توانند فریم‌های مجزا را تحلیل کنند، جمینی ۲.۰ تا ۱۰ دقیقه ویدیوی ۳۰ فریم بر ثانیه یعنی ۱۸۰۰۰ فریم را در کمتر از ۱.۵ ثانیه پردازش می‌کند. در یک دمو در Google I/O 2025، این مدل ضبط لرزان تلفن کاربر از موتور معیوب ماشین را دنبال کرد، یک کابل شمع شل را تشخیص داد و گشتاور مورد نیاز برای پیچ را به همراه داده‌های پایگاه داده قطعات یدکی Bosch اعلام کرد. این قابلیت اکنون در Google Lens ادغام شده که ماهانه ۱۲ میلیارد پرس‌وجوی بصری را مدیریت می‌کند (از ۸ میلیارد در ۲۰۲۳). در مقابل، Microsoft Copilot (مبتنی بر GPT-4V) نیاز به آپلود کلیپ‌های از پیش ضبط شده دارد و به طور میانگین ۴.۲ ثانیه به ازای هر دقیقه ویدیو منتظر می‌ماند، طبق آزمایش CNET در ژانویه ۲۰۲۵.

محاسبات لبه و تأخیر: Gemini Nano در جستجوی موبایلی

گوگل همچنین با استفاده از نسخه کوچک‌تر جمینی ۲.۰ یعنی Gemini Nano 2 مستقیماً روی دستگاه‌های Pixel 9، قوانین تأخیر را بازنویسی کرد. این مدل روی دستگاه می‌تواند جستجوهای چندوجهی را بدون رفت و برگشت به ابر انجام دهد. به عنوان مثال، دوربین تلفن را به سمت منوی یک رستوران ژاپنی بگیرید، بگویید «ارزان‌ترین کاسه رامن را نشان بده» و ترجمه‌ای با رتبه‌بندی قیمت در ۱۸۰ میلی‌ثانیه دریافت کنید. این ۶۲٪ بهبود نسبت به رویکرد وابسته به ابر ویژگی Circle to Search در Pixel 8 است که در آزمایش‌های مشابه Android Authority به طور میانگین ۴۷۰ میلی‌ثانیه زمان می‌برد. اپل هنوز مدل چندوجهی روی دستگاه با قابلیت مشابهی اعلام نکرده است. مدل زبانی روی دستگاه این شرکت (LLM 3 که با iOS 18.4 منتشر شد) متن و تصاویر را جداگانه مدیریت می‌کند و درک ویدیو همچنان به پردازش سمت سرور از طریق Neural Engine A18 Pro وابسته است.

داده‌های آموزشی و گراف‌های دانش جهان‌باز

بازنویسی جستجوی جمینی ۲.۰ همچنین از یک مجموعه آموزشی بسیار گسترده‌تر ناشی می‌شود. گوگل در رویداد Cloud Next 2025 تأیید کرد که این مدل روی ۵ تریلیون Token از متن، ۱.۲ میلیارد تصویر، ۲۴ میلیون ساعت ویدیوی یوتیوب (با صدا و زیرنویس) و ۳.۱ میلیون مقاله علمی از PubMed آموزش دیده است. این مدل با ترکیب با Google Knowledge Graph که اکنون شامل ۸.۵ میلیارد موجودیت و ۸۵ میلیارد رابطه است، می‌تواند عکس کاربر از یک نقاشی نادر روثکو را به ارزش بازار فعلی آن از داده‌های حراج ساتبیز متصل کند و همزمان مقاله‌ای از سال ۲۰۱۹ از The Art Newspaper را بازیابی کند که منشأ آن را تحلیل کرده است. این مقیاس ارجاع متقابل یک مرتبه بزرگی بزرگ‌تر از LLaMA 2 متا است که از ۲ تریلیون Token استفاده می‌کند و هیچ ادغام مستقیمی با یک گراف دانش زنده ندارد. آزمایش‌های TechCrunch در فوریه ۲۰۲۵ نشان داد که جمینی ۲.۰ ۹۴٪ از پرس‌وجوهای چندوجهی مبهم (مثلاً عکس یک «جگوار» حیوان در مقابل خودرو) را به درستی تشخیص داد، در حالی که این رقم برای GPT-4 Turbo برابر ۸۱٪ بود.

عامل‌های تخصصی و مرگ «۱۰ لینک آبی»

فراتر از جستجوی سنتی، جمینی ۲.۰ «عامل‌های جستجوی» تخصصی را معرفی می‌کند که به طور خودکار وظایف چندمرحله‌ای چندوجهی را اجرا می‌کنند. به عنوان مثال، Shopping Agent می‌تواند عکس کاربر از کف کفش کوهنوردی فرسوده را بررسی کند، آن را با ایمیل تأیید سفارش از REI برای همان مدل تطبیق دهد، سپس در Backcountry.com، REI و Zappos به دنبال سایز ۱۱ با کف Vibrom بگردد و بهترین پیشنهاد را با احتساب مالیات و حمل و نقل در ۲.۳ ثانیه ارائه دهد. در یک دموی زنده در Google Marketing Live 2025، این عامل زمان کشف محصول را ۴۷٪ نسبت به جستجوی دستی در Google Shopping کاهش داد. در مقایسه، Rufus آمازون (راه‌اندازی شده در فوریه ۲۰۲۴) می‌تواند به سوالات متنی محصول پاسخ دهد اما نمی‌تواند جزئیات تصاویر یا ویدیوهای ارائه شده توسط مشتری را استخراج کند. ShopBot ای‌بی نیز با وجود آگاهی از تصویر، نیاز به آپلود دستی تصویر دارد و ایمیل‌ها را پردازش نمی‌کند.

چشم‌انداز اقتصادی و رقابتی

بازنویسی جستجوی چندوجهی توسط گوگل پیامدهای فوری بازار دارد. طبق پیش‌بینی گارتنر در مارس ۲۰۲۵، ادغام جمینی ۲.۰ در جستجوی گوگل می‌تواند درآمد جستجوی شرکت مادر یعنی Alphabet را در سال ۲۰۲۵، ۱۲ تا ۱۵٪ افزایش دهد. این رشد ناشی از نرخ کلیک بالاتر بر روی نتایج غنی چندوجهی است. رقبا در تلاش هستند: OpenAI در مارس ۲۰۲۵ «GTV-2025» (یک مدل بومی ویدیو) را اعلام کرد اما هنوز در بتای بسته است. مایکروسافت در Build 2025 اعلام کرد که Copilot تا سه‌ماهه سوم ۲۰۲۵ از پردازش ویدیوی زنده پشتیبانی خواهد کرد، اما هنوز به پنجره ۱۰ دقیقه‌ای پیوسته جمینی نرسیده است. استارتاپ‌هایی مانند Perplexity AI و You.com نیز قابلیت جستجوی اولیه تصویر به متن را اضافه کرده‌اند، اما عمق قابلیت‌های روی دستگاه و گراف دانش را ندارند. نتیجه این است که گوگل سطح پایه جستجوی چندوجهی را دوباره تعریف کرده و رقبا برای رسیدن به تأخیر و ادغام حالت (چه رسد به پیشی گرفتن) با یک تلاش پرهزینه روبرو هستند.