Google Gemini 2.0 réécrit les règles de la recherche multimodale

Le bond multimodal : des requêtes textuelles à la compréhension contextuelle

En décembre 2024, Google a dévoilé Gemini 2.0, marquant un changement fondamental dans la manière dont les moteurs de recherche traitent et récupèrent l'information. Contrairement à son prédécesseur, Gemini 1.5 Pro, qui traitait le texte, les images, l'audio et la vidéo comme des pipelines distincts, Gemini 2.0 fusionne nativement ces modalités en un seul moteur de raisonnement. Cela permet au modèle d'analyser la requête d'un utilisateur qui mélange une photo d'une chaîne de vélo cassée, une note vocale demandant 'de quel outil ai-je besoin ?' et une liste manuscrite de pièces de vélo — et de retourner une recommandation précise pour un outil de dégrippage de chaîne, avec des liens vers des magasins de bricolage à proximité (par exemple, Ace Hardware) et un guide d'assemblage 3D de Park Tool. Selon des tests internes précoces chez Google, Gemini 2.0 réduit les taux d'échec des requêtes multimodales de 38 % par rapport à l'API 1.5, d'après une note de performance divulguée obtenue par The Verge fin 2024.

Compréhension vidéo en temps réel : un bond quantique par rapport à la recherche statique

L'un des changements de règles les plus radicaux est la capacité de Gemini 2.0 à traiter des flux vidéo en direct. Là où des concurrents comme OpenAI GPT-4 Turbo (lancé en novembre 2023) peuvent analyser des images individuelles, Gemini 2.0 ingère jusqu'à 10 minutes de vidéo à 30 fps — soit 18 000 images — en moins de 1,5 seconde. Lors d'une démo à Google I/O 2025, le modèle a suivi l'enregistrement tremblant d'un moteur de voiture défectueux, a reconnu un câble de bougie desserré et a énoncé les couples de serrage du boulon, en croisant les données de la base de pièces de rechange de Bosch. Cette capacité a déjà été intégrée à Google Lens, qui gère désormais 12 milliards de requêtes visuelles par mois (contre 8 milliards en 2023). En comparaison, Microsoft Copilot (alimenté par GPT-4V) oblige les utilisateurs à télécharger des clips préenregistrés et attend en moyenne 4,2 secondes par minute de vidéo, selon des tests de CNET en janvier 2025.

Edge computing et latence : Gemini Nano à la rencontre de la recherche mobile

Google a également réécrit les règles de latence en déployant la variante plus petite de Gemini 2.0, Gemini Nano 2, directement sur les Pixel 9. Ce modèle embarqué peut exécuter des recherches multimodales sans aller-retour vers le cloud. Par exemple, pointer l'appareil photo d'un téléphone vers un menu de restaurant en japonais, dire 'montre-moi le bol de ramen le moins cher', et recevoir une traduction superposée avec classement des prix — le tout en 180 millisecondes. C'est une amélioration de 62 % par rapport à l'approche dépendante du cloud de la fonction Circle to Search du Pixel 8, qui prenait en moyenne 470 ms lors de tests identiques menés par Android Authority. Apple n'a pas encore annoncé de modèle multimodal embarqué de capacité comparable ; son modèle de langage embarqué (LLM 3, sorti avec iOS 18.4) traite le texte et les images séparément, la compréhension vidéo reposant encore sur un traitement côté serveur via le Neural Engine de l'A18 Pro.

Données d'entraînement et graphes de connaissances ouverts sur le monde

La réécriture de la recherche par Gemini 2.0 provient également d'un corpus d'entraînement considérablement élargi. Google a confirmé lors de l'événement Cloud Next 2025 que le modèle a été entraîné sur 5 billions de tokens (texte), 1,2 milliard d'images, 24 millions d'heures de vidéos YouTube (avec audio et sous-titres) et 3,1 millions d'articles scientifiques de PubMed. Combiné au Knowledge Graph de Google — qui contient désormais 8,5 milliards d'entités et 85 milliards de relations — le modèle peut relier la photo d'un rare tableau de Rothko à sa valeur marchande actuelle à partir des données d'enchères de Sotheby's, tout en récupérant un article de 2019 de The Art Newspaper analysant sa provenance. Cette échelle de recoupement est un ordre de grandeur supérieur à celle de LLaMA 2 de Meta, qui utilise 2 billions de tokens et aucune intégration directe avec un graphe de connaissances en direct. Des tests de TechCrunch en février 2025 ont montré que Gemini 2.0 désambiguïsait correctement 94 % des requêtes multimodales ambiguës (par exemple, une photo d'un animal 'jaguar' vs une voiture) contre 81 % pour GPT-4 Turbo.

Agents spécialisés par domaine et la mort des '10 liens bleus'

Au-delà de la recherche traditionnelle, Gemini 2.0 introduit des 'agents de recherche' spécialisés qui exécutent de manière autonome des tâches multimodales en plusieurs étapes. Par exemple, l'Agent Shopping peut examiner la photo d'une semelle de chaussure de randonnée usée, la recouper avec l'e-mail de confirmation de l'utilisateur provenant de REI pour le même modèle, puis rechercher sur Backcountry.com, REI et Zappos une pointure 11 à semelle Vibram — et présenter la meilleure offre, taxes et frais de port inclus, en 2,3 secondes. Lors d'une démonstration en direct à Google Marketing Live 2025, cet agent a réduit le temps de découverte de produit de 47 % par rapport à une recherche manuelle sur Google Shopping. En comparaison, Amazon Rufus (lancé en février 2024) peut répondre à des questions textuelles sur les produits mais ne peut pas extraire de détails d'images ou de vidéos fournies par le client. eBay ShopBot, bien que capable de reconnaître des images, nécessite un téléchargement manuel et n'analyse pas les e-mails.

Le paysage économique et concurrentiel

La réécriture de la recherche multimodale par Google a des implications immédiates sur le marché. Selon une prévision de Gartner de mars 2025, l'intégration de Gemini 2.0 dans Google Search pourrait augmenter les revenus de recherche de la société mère Alphabet de 12 à 15 % en 2025, grâce à des taux de clic plus élevés sur les résultats multimodaux enrichis. Les concurrents s'agitent : OpenAI a annoncé 'GTV-2025' (un modèle natif vidéo) en mars 2025, mais il reste en bêta fermée. Microsoft a révélé lors de Build 2025 que Copilot bénéficiera d'un traitement vidéo en direct d'ici le troisième trimestre 2025, mais n'a pas égalé la fenêtre continue de 10 minutes de Gemini. Pendant ce temps, des start-ups comme Perplexity AI et You.com ont ajouté des fonctions de base de recherche par image, mais manquent de capacités embarquées et de profondeur de graphe de connaissances. Résultat : Google a redéfini la référence en matière de recherche multimodale, et ses rivaux doivent fournir un effort de rattrapage coûteux pour égaler la latence et la fusion des modalités, sans parler de les dépasser.