جيميني 2.0 من غوغل: قواعد جديدة للبحث متعدد الوسائط

القفزة متعددة الوسائط: من استعلامات نصية إلى فهم سياقي

في ديسمبر 2024، كشفت غوغل عن جيميني 2.0، وهي نقلة نوعية في طريقة معالجة محركات البحث للمعلومات. على عكس الجيل السابق جيميني 1.5 برو، الذي كان يعالج النصوص والصور والصوت والفيديو في خطوط أنابيب (pipelines) منفصلة، يدمج جيميني 2.0 هذه الوسائط بشكل متكامل في محرك استدلال واحد. هذا يسمح للنموذج بفهم استعلام المستخدم الذي يجمع بين صورة لسلسلة دراجة مكسورة، ورسالة صوتية تسأل 'ما الأداة التي أحتاجها؟'، وقائمة مكتوبة بخط اليد لأجزاء الدراجة — وإعادة توصية دقيقة بأداة فك السلسلة، مع روابط لمتاجر أدوات قريبة (مثل Ace Hardware) ودليل تجميع ثلاثي الأبعاد من Park Tool. وفقًا لمذكرة أداء مسربة حصل عليها موقع The Verge في أواخر 2024، تُظهر الاختبارات الداخلية المبكرة في غوغل أن جيميني 2.0 يقلل معدلات فشل الاستعلامات متعددة الوسائط بنسبة 38% مقارنة بواجهة API 1.5.

فهم الفيديو في الوقت الفعلي: قفزة هائلة على البحث الثابت

من أبرز التغييرات الجذرية قدرة جيميني 2.0 على معالجة تدفقات الفيديو المباشرة. بينما يستطيع منافسون مثل GPT‑4 Turbo من OpenAI (الذي أُطلق في نوفمبر 2023) تحليل إطارات فردية، يستوعب جيميني 2.0 ما يصل إلى 10 دقائق من فيديو بمعدل 30 إطارًا في الثانية — أي 18 ألف إطار — في أقل من 1.5 ثانية. في عرض تجريبي خلال مؤتمر I/O 2025، تابع النموذج تسجيل هاتف مهتز لمحرك سيارة معطل، وتعرف على كابل شمعة احتراق مفكوك، ثم نطق بقيم عزم الربط المناسبة للبرغي، بالاستناد إلى قاعدة بيانات قطع الغيار من Bosch. هذه الإمكانية دُمجت بالفعل في Google Lens، الذي يعالج الآن 12 مليار استعلام بصري شهريًا (ارتفاعًا من 8 مليارات في 2023). على النقيض، يتطلب Copilot من Microsoft (المدعوم من GPT‑4V) من المستخدمين رفع مقاطع مسجلة مسبقًا وينتظر متوسط 4.2 ثوانٍ لكل دقيقة فيديو، وفق اختبار أجراه CNET في يناير 2025.

الحوسبة الطرفية وزمن الاستجابة: جيميني نانو يلتقي بالبحث المحمول

أعادت غوغل كتابة قواعد زمن الاستجابة بنشر النسخة المصغرة من جيميني 2.0، وهي Gemini Nano 2، مباشرة على أجهزة Pixel 9. هذا النموذج المحلي يمكنه تنفيذ عمليات بحث متعددة الوسائط دون الحاجة إلى الاتصال بالسحابة. على سبيل المثال، توجيه كاميرا الهاتف إلى قائمة مطعم باليابانية، وقول 'أرني أرخص وعاء رامن'، ثم استقبال ترجمة متراكبة مع ترتيب الأسعار — كل ذلك في غضون 180 مللي ثانية. هذا تحسين بنسبة 62% عن أسلوب الاعتماد على السحابة في ميزة Circle to Search في Pixel 8، التي كانت تستغرق 470 مللي ثانية في اختبارات مماثلة أجراها Android Authority. لم تعلن آبل بعد عن نموذج محلي متعدد الوسائط بقدرات مماثلة؛ نموذجها اللغوي المحلي (LLM 3، الذي صدر مع iOS 18.4) يعالج النصوص والصور بشكل منفصل، ولا يزال فهم الفيديو يعتمد على معالجة الخادم عبر Neural Engine في A18 Pro.

بيانات التدريب ورسوم المعرفة المفتوحة

ينبعث إعادة كتابة البحث في جيميني 2.0 من مجموعة تدريب موسعة بشكل كبير. أكدت غوغل في حدث Cloud Next 2025 أن النموذج دُرب على 5 تريليونات Token عبر النصوص، و1.2 مليار صورة، و24 مليون ساعة من مقاطع يوتيوب (مع الصوت والترجمات)، و3.1 مليون ورقة علمية من PubMed. بالاقتران مع Knowledge Graph من غوغل — الذي يحتوي الآن على 8.5 مليار كيان و85 مليار علاقة — يمكن للنموذج ربط صورة المستخدم للوحة نادرة لروثكو بقيمتها السوقية الحالية من بيانات مزاد Sotheby's، مع استرجاع مقال من عام 2019 من The Art Newspaper يحلل أصلها. هذا النطاق من الربط أكبر بعشرة أضعاف من LLaMA 2 من Meta، الذي يستخدم 2 تريليون Token ولا يتكامل مباشرة مع Knowledge Graph حي. أظهرت اختبارات TechCrunch في فبراير 2025 أن جيميني 2.0 حلل بشكل صحيح 94% من الاستعلامات متعددة الوسائط الغامضة (مثل صورة حيوان 'جاغوار' مقابل سيارة) مقابل 81% لـ GPT‑4 Turbo.

وكلاء متخصصون في المجالات وموت 'الروابط الزرقاء العشرة'

إلى جانب البحث التقليدي، يقدم جيميني 2.0 'وكلاء بحث' متخصصين ينفذون مهامًا متعددة الوسائط متعددة الخطوات بشكل ذاتي. على سبيل المثال، يمكن لوكيل التسوق فحص صورة المستخدم لنعل حذاء مشي متهالك، ومقارنتها بتأكيد البريد الإلكتروني من REI لنفس الموديل، ثم البحث عبر Backcountry.com وREI وZappos عن مقاس 11 مع نعال Vibrom — وعرض أفضل صفقة تشمل الضريبة والشحن في غضون 2.3 ثانية. خلال عرض حي في Google Marketing Live 2025، قلل هذا الوكيل من وقت اكتشاف المنتج بنسبة 47% مقارنة بالبحث اليدوي على Google Shopping. بالمقابل، يستطيع Rufus من أمازون (أُطلق فبراير 2024) الإجابة على أسئلة نصية عن المنتجات لكنه لا يستخرج تفاصيل من صور أو فيديوهات يقدمها العملاء. ShopBot من إيباي، رغم وعيه بالصور، يتطلب رفع صور يدويًا ولا يحلل البريد الإلكتروني.

المشهد الاقتصادي والتنافسي

لإعادة كتابة غوغل للبحث متعدد الوسائط آثار فورية على السوق. وفقًا لتوقعات Gartner من مارس 2025، قد يعزز دمج جيميني 2.0 في بحث غوغل إيرادات الشركة الأم Alphabet بنسبة 12–15% في 2025، بفضل ارتفاع معدلات النقر على النتائج الغنية متعددة الوسائط. المنافسون يتسابقون: OpenAI أعلنت عن 'GTV‑2025' (نموذج فيديو أصلي) في مارس 2025، لكنه ما زال في بيتا مغلقة. مايكروسوفت كشفت في Build 2025 أن Copilot سيحصل على معالجة فيديو مباشر بحلول الربع الثالث من 2025، لكنها لم تضاهِ نافذة جيميني المستمرة التي تدوم 10 دقائق. في هذه الأثناء، أضافت شركات ناشئة مثل Perplexity AI وYou.com ميزات أساسية للبحث بالصور، لكنها تفتقر إلى القدرات المحلية وعمق Knowledge Graph. النتيجة: أعادت غوغل تحديد الخط الأساسي للبحث متعدد الوسائط، ويواجه المنافسون جهودًا مكلفة للحاق بالركب في زمن الاستجابة ودمج الوسائط، ناهيك عن تجاوزها.