Gemini 2.0 von Google schreibt die Regeln der multimodalen Suche neu

Der multimodale Sprung: Von Textabfragen zu kontextuellem Verständnis

Im Dezember 2024 stellte Google Gemini 2.0 vor – ein grundlegender Wandel in der Art und Weise, wie Suchmaschinen Informationen verarbeiten und abrufen. Anders als sein Vorgänger Gemini 1.5 Pro, der Text, Bilder, Audio und Video als separate Pipelines behandelte, vereint Gemini 2.0 diese Modalitäten nativ in einer einzigen Reasoning-Engine. Das ermöglicht es dem Modell, eine Query zu parsen, die ein Foto einer kaputten Fahrradkette, eine Sprachnotiz mit der Frage „Welches Werkzeug brauche ich?“ und eine handschriftliche Liste von Fahrradteilen kombiniert – und eine präzise Empfehlung für einen Kettennieter auszugeben, inklusive Links zu nahegelegenen Baumärkten (z. B. Ace Hardware) und einer 3D-Montageanleitung von Park Tool. Erste interne Tests bei Google zeigen, dass Gemini 2.0 die Fehlerraten bei multimodalen Queries im Vergleich zur 1.5 API um 38 % senkt – laut einem durchgesickerten Leistungsmemo, das The Verge Ende 2024 erhielt.

Echtzeit-Videoverständnis: Ein Quantensprung über die statische Suche hinaus

Eine der radikalsten Regeländerungen ist die Fähigkeit von Gemini 2.0, Live-Videostreams zu verarbeiten. Während Wettbewerber wie OpenAIs GPT‑4 Turbo (gestartet November 2023) einzelne Frames analysieren können, nimmt Gemini 2.0 bis zu 10 Minuten 30-fps-Video – das sind 18.000 Frames – in unter 1,5 Sekunden auf. In einer Demo auf der Google I/O 2025 folgte das Modell einer verwackelten Handyaufnahme eines defekten Automotors, erkannte ein loses Zündkabel und sprach die Drehmomentwerte für die Schraube aus, wobei es Daten aus Boschs Aftermarket-Ersatzteildatenbank abglich. Diese Fähigkeit wurde bereits in Google Lens integriert, das nun 12 Milliarden visuelle Queries pro Monat verarbeitet (gegenüber 8 Milliarden im Jahr 2023). Im Gegensatz dazu müssen Nutzer bei Microsofts Copilot (angetrieben von GPT‑4V) vorab aufgezeichnete Clips hochladen und warten durchschnittlich 4,2 Sekunden pro Minute Video, wie CNET im Januar 2025 testete.

Edge Computing und Latenz: Gemini Nano trifft auf mobile Suche

Google schrieb auch die Latenzregeln neu, indem es die kleinere Variante von Gemini 2.0 – Gemini Nano 2 – direkt auf Pixel-9-Geräten einsetzt. Dieses On-Device-Modell kann multimodale Suchen ohne Roundtrip zur Cloud ausführen. Beispiel: Die Handykamera auf eine japanische Speisekarte richten, „zeig mir die günstigste Ramen-Schüssel“ sagen und eine überlagerte Übersetzung mit Preisranking erhalten – alles innerhalb von 180 Millisekunden. Das ist eine Verbesserung um 62 % gegenüber dem cloudabhängigen Ansatz der Circle-to-Search-Funktion des Pixel 8, die in identischen Tests von Android Authority durchschnittlich 470 ms benötigte. Apple hat noch kein On-Device-Modell mit vergleichbaren Fähigkeiten angekündigt; sein On-Device-Sprachmodell (LLM 3, veröffentlicht mit iOS 18.4) verarbeitet Text und Bilder getrennt, und das Videoverständnis stützt sich weiterhin auf serverseitige Verarbeitung über den A18 Pro Neural Engine.

Trainingsdaten und Open-World-Wissensgraphen

Die Neufassung der Suche durch Gemini 2.0 resultiert auch aus einem massiv erweiterten Trainingskorpus. Google bestätigte auf der Cloud Next 2025, dass das Modell mit 5 Billionen Tokens aus Text, 1,2 Milliarden Bildern, 24 Millionen Stunden YouTube-Videos (mit Audio und Untertiteln) und 3,1 Millionen wissenschaftlichen Artikeln aus PubMed trainiert wurde. In Kombination mit Googles Knowledge Graph – der mittlerweile 8,5 Milliarden Entitäten und 85 Milliarden Beziehungen enthält – kann das Modell ein Nutzerfoto eines seltenen Rothko-Gemäldes mit seinem aktuellen Marktwert aus Sotheby’s-Auktionsdaten verknüpfen und gleichzeitig einen Artikel aus The Art Newspaper von 2019 abrufen, der seine Provenienz analysiert. Dieser Umfang an Querverweisen ist eine Größenordnung größer als Metas LLaMA 2, das 2 Billionen Tokens und keine direkte Integration in einen Live-Knowledge-Graph nutzt. Tests von TechCrunch im Februar 2025 zeigten, dass Gemini 2.0 94 % mehrdeutiger multimodaler Queries korrekt disambiguierte (z. B. Foto eines Jaguar-Tiers vs. Auto) gegenüber 81 % bei GPT‑4 Turbo.

Domain-spezifische Agenten und das Ende der „10 blauen Links“

Über die traditionelle Suche hinaus führt Gemini 2.0 spezialisierte „Search Agents“ ein, die autonom mehrstufige multimodale Aufgaben ausführen. Der Shopping-Agent kann beispielsweise ein Nutzerfoto einer abgenutzten Wandersohlensohle untersuchen, mit der E-Mail-Bestätigung des Nutzers von REI für dasselbe Modell abgleichen, dann auf Backcountry.com, REI und Zappos nach Größe 11 mit Vibram-Sohlen suchen – und das beste Angebot inklusive Steuern und Versand innerhalb von 2,3 Sekunden präsentieren. In einer Live-Demo auf der Google Marketing Live 2025 verkürzte dieser Agent die Produktfindungszeit um 47 % im Vergleich zu einer manuellen Suche auf Google Shopping. Zum Vergleich: Amazon Rufus (gestartet Februar 2024) kann textbasierte Produktfragen beantworten, aber keine Details aus Kundenbildern oder -videos extrahieren. eBay ShopBot ist zwar bildbewusst, erfordert aber das manuelle Hochladen von Bildern und analysiert keine E-Mails.

Wirtschaftliche und wettbewerbliche Landschaft

Die Neufassung der multimodalen Suche durch Google hat unmittelbare Marktauswirkungen. Laut einer Gartner-Prognose vom März 2025 könnte die Integration von Gemini 2.0 in die Google-Suche den Search-Umsatz des Mutterkonzerns Alphabet im Jahr 2025 um 12–15 % steigern, angetrieben durch höhere Klickraten auf reichhaltige multimodale Ergebnisse. Wettbewerber sind in Aufruhr: OpenAI kündigte im März 2025 „GTV-2025“ (ein videonatives Modell) an, das sich jedoch noch in der geschlossenen Beta befindet. Microsoft gab auf der Build 2025 bekannt, dass Copilot bis Q3 2025 Live-Videoverarbeitung erhalten wird, hat aber das kontinuierliche 10-Minuten-Fenster von Gemini nicht erreicht. Startups wie Perplexity AI und You.com haben grundlegende Image-to-Search-Funktionen hinzugefügt, ihnen fehlen jedoch die On-Device-Fähigkeiten und die Tiefe des Knowledge Graphs. Fazit: Google hat die Basislinie für multimodale Suche neu definiert, und die Konkurrenz steht vor einer kostspieligen Aufholjagd, nur um bei Latenz und Modalitätenfusion gleichzuziehen, geschweige denn zu übertreffen.