جمینی ۲.۰ گوگل قوانین جستجوی چندوجهی را بازنویسی کرد

جهش چندوجهی: از پرسوجوهای متنی تا درک زمینه
در دسامبر ۲۰۲۴، گوگل از جمینی ۲.۰ رونمایی کرد که یک تغییر اساسی در نحوه پردازش و بازیابی اطلاعات توسط موتورهای جستجو به شمار میرود. برخلاف نسخه قبلی یعنی جمینی ۱.۵ پرو که متن، تصاویر، صدا و ویدیو را در خطوط لوله جداگانه مدیریت میکرد، جمینی ۲.۰ به صورت بومی این حالتها را در یک موتور استدلال واحد ادغام میکند. این مدل میتواند پرسوجوی کاربر را که ترکیبی از عکس یک زنجیر دوچرخه شکسته، یادداشت صوتی با سوال «چه ابزاری نیاز دارم؟» و یک لیست دست نویس از قطعات دوچرخه است، تجزیه و تحلیل کند و بهطور دقیق یک ابزار زنجیرشکن را به همراه لینک فروشگاههای سختافزاری نزدیک (مثلاً Ace Hardware) و یک راهنمای مونتاژ سه بعدی از Park Tool پیشنهاد دهد. آزمایشهای اولیه داخلی گوگل نشان میدهد که جمینی ۲.۰ نرخ شکست پرسوجوهای چندوجهی را در مقایسه با API نسخه ۱.۵ تا ۳۸٪ کاهش داده است. این آمار بر اساس یک یادداشت عملکرد لو رفته که توسط The Verge در اواخر ۲۰۲۴ به دست آمده است.
درک ویدیوی زنده: یک جهش کوانتومی فراتر از جستجوی استاتیک
یکی از مهمترین تغییرات قوانین، توانایی جمینی ۲.۰ در پردازش استریمهای ویدیویی زنده است. جایی که رقبایی مانند GPT-4 Turbo از OpenAI (راهاندازی شده در نوامبر ۲۰۲۳) میتوانند فریمهای مجزا را تحلیل کنند، جمینی ۲.۰ تا ۱۰ دقیقه ویدیوی ۳۰ فریم بر ثانیه یعنی ۱۸۰۰۰ فریم را در کمتر از ۱.۵ ثانیه پردازش میکند. در یک دمو در Google I/O 2025، این مدل ضبط لرزان تلفن کاربر از موتور معیوب ماشین را دنبال کرد، یک کابل شمع شل را تشخیص داد و گشتاور مورد نیاز برای پیچ را به همراه دادههای پایگاه داده قطعات یدکی Bosch اعلام کرد. این قابلیت اکنون در Google Lens ادغام شده که ماهانه ۱۲ میلیارد پرسوجوی بصری را مدیریت میکند (از ۸ میلیارد در ۲۰۲۳). در مقابل، Microsoft Copilot (مبتنی بر GPT-4V) نیاز به آپلود کلیپهای از پیش ضبط شده دارد و به طور میانگین ۴.۲ ثانیه به ازای هر دقیقه ویدیو منتظر میماند، طبق آزمایش CNET در ژانویه ۲۰۲۵.
محاسبات لبه و تأخیر: Gemini Nano در جستجوی موبایلی
گوگل همچنین با استفاده از نسخه کوچکتر جمینی ۲.۰ یعنی Gemini Nano 2 مستقیماً روی دستگاههای Pixel 9، قوانین تأخیر را بازنویسی کرد. این مدل روی دستگاه میتواند جستجوهای چندوجهی را بدون رفت و برگشت به ابر انجام دهد. به عنوان مثال، دوربین تلفن را به سمت منوی یک رستوران ژاپنی بگیرید، بگویید «ارزانترین کاسه رامن را نشان بده» و ترجمهای با رتبهبندی قیمت در ۱۸۰ میلیثانیه دریافت کنید. این ۶۲٪ بهبود نسبت به رویکرد وابسته به ابر ویژگی Circle to Search در Pixel 8 است که در آزمایشهای مشابه Android Authority به طور میانگین ۴۷۰ میلیثانیه زمان میبرد. اپل هنوز مدل چندوجهی روی دستگاه با قابلیت مشابهی اعلام نکرده است. مدل زبانی روی دستگاه این شرکت (LLM 3 که با iOS 18.4 منتشر شد) متن و تصاویر را جداگانه مدیریت میکند و درک ویدیو همچنان به پردازش سمت سرور از طریق Neural Engine A18 Pro وابسته است.
دادههای آموزشی و گرافهای دانش جهانباز
بازنویسی جستجوی جمینی ۲.۰ همچنین از یک مجموعه آموزشی بسیار گستردهتر ناشی میشود. گوگل در رویداد Cloud Next 2025 تأیید کرد که این مدل روی ۵ تریلیون Token از متن، ۱.۲ میلیارد تصویر، ۲۴ میلیون ساعت ویدیوی یوتیوب (با صدا و زیرنویس) و ۳.۱ میلیون مقاله علمی از PubMed آموزش دیده است. این مدل با ترکیب با Google Knowledge Graph که اکنون شامل ۸.۵ میلیارد موجودیت و ۸۵ میلیارد رابطه است، میتواند عکس کاربر از یک نقاشی نادر روثکو را به ارزش بازار فعلی آن از دادههای حراج ساتبیز متصل کند و همزمان مقالهای از سال ۲۰۱۹ از The Art Newspaper را بازیابی کند که منشأ آن را تحلیل کرده است. این مقیاس ارجاع متقابل یک مرتبه بزرگی بزرگتر از LLaMA 2 متا است که از ۲ تریلیون Token استفاده میکند و هیچ ادغام مستقیمی با یک گراف دانش زنده ندارد. آزمایشهای TechCrunch در فوریه ۲۰۲۵ نشان داد که جمینی ۲.۰ ۹۴٪ از پرسوجوهای چندوجهی مبهم (مثلاً عکس یک «جگوار» حیوان در مقابل خودرو) را به درستی تشخیص داد، در حالی که این رقم برای GPT-4 Turbo برابر ۸۱٪ بود.
عاملهای تخصصی و مرگ «۱۰ لینک آبی»
فراتر از جستجوی سنتی، جمینی ۲.۰ «عاملهای جستجوی» تخصصی را معرفی میکند که به طور خودکار وظایف چندمرحلهای چندوجهی را اجرا میکنند. به عنوان مثال، Shopping Agent میتواند عکس کاربر از کف کفش کوهنوردی فرسوده را بررسی کند، آن را با ایمیل تأیید سفارش از REI برای همان مدل تطبیق دهد، سپس در Backcountry.com، REI و Zappos به دنبال سایز ۱۱ با کف Vibrom بگردد و بهترین پیشنهاد را با احتساب مالیات و حمل و نقل در ۲.۳ ثانیه ارائه دهد. در یک دموی زنده در Google Marketing Live 2025، این عامل زمان کشف محصول را ۴۷٪ نسبت به جستجوی دستی در Google Shopping کاهش داد. در مقایسه، Rufus آمازون (راهاندازی شده در فوریه ۲۰۲۴) میتواند به سوالات متنی محصول پاسخ دهد اما نمیتواند جزئیات تصاویر یا ویدیوهای ارائه شده توسط مشتری را استخراج کند. ShopBot ایبی نیز با وجود آگاهی از تصویر، نیاز به آپلود دستی تصویر دارد و ایمیلها را پردازش نمیکند.
چشمانداز اقتصادی و رقابتی
بازنویسی جستجوی چندوجهی توسط گوگل پیامدهای فوری بازار دارد. طبق پیشبینی گارتنر در مارس ۲۰۲۵، ادغام جمینی ۲.۰ در جستجوی گوگل میتواند درآمد جستجوی شرکت مادر یعنی Alphabet را در سال ۲۰۲۵، ۱۲ تا ۱۵٪ افزایش دهد. این رشد ناشی از نرخ کلیک بالاتر بر روی نتایج غنی چندوجهی است. رقبا در تلاش هستند: OpenAI در مارس ۲۰۲۵ «GTV-2025» (یک مدل بومی ویدیو) را اعلام کرد اما هنوز در بتای بسته است. مایکروسافت در Build 2025 اعلام کرد که Copilot تا سهماهه سوم ۲۰۲۵ از پردازش ویدیوی زنده پشتیبانی خواهد کرد، اما هنوز به پنجره ۱۰ دقیقهای پیوسته جمینی نرسیده است. استارتاپهایی مانند Perplexity AI و You.com نیز قابلیت جستجوی اولیه تصویر به متن را اضافه کردهاند، اما عمق قابلیتهای روی دستگاه و گراف دانش را ندارند. نتیجه این است که گوگل سطح پایه جستجوی چندوجهی را دوباره تعریف کرده و رقبا برای رسیدن به تأخیر و ادغام حالت (چه رسد به پیشی گرفتن) با یک تلاش پرهزینه روبرو هستند.