Gemini 2.0 de Google reescribe las reglas de la búsqueda multimodal

El salto multimodal: de consultas de texto a comprensión contextual

En diciembre de 2024, Google presentó Gemini 2.0, un cambio fundamental en la forma en que los motores de búsqueda procesan y recuperan información. A diferencia de su predecesor, Gemini 1.5 Pro, que manejaba texto, imágenes, audio y video como pipelines separados, Gemini 2.0 fusiona de forma nativa estas modalidades en un solo motor de razonamiento. Esto permite que el modelo interprete una consulta que combine una foto de una cadena de bicicleta rota, una nota de voz preguntando «¿qué herramienta necesito?» y una lista manuscrita de piezas de bicicleta, para devolver una recomendación precisa sobre un extractor de cadenas, junto con enlaces a ferreterías cercanas (como Ace Hardware) y una guía de montaje en 3D de Park Tool. Según un informe de rendimiento filtrado obtenido por The Verge a finales de 2024, las pruebas internas de Google muestran que Gemini 2.0 reduce en un 38% la tasa de fallos en consultas multimodales en comparación con la API 1.5.

Comprensión de video en tiempo real: un salto cuántico frente a la búsqueda estática

Una de las reglas más radicales que cambia Gemini 2.0 es su capacidad para procesar flujos de video en vivo. Mientras que competidores como GPT‑4 Turbo de OpenAI (lanzado en noviembre de 2023) pueden analizar fotogramas individuales, Gemini 2.0 ingiere hasta 10 minutos de video a 30 fps —es decir, 18.000 fotogramas— en menos de 1,5 segundos. En una demostración durante Google I/O 2025, el modelo siguió una grabación temblorosa de un motor de coche averiado, reconoció un cable de bujía suelto y devolvió en voz alta las especificaciones de par para el perno, cotejando datos de la base de recambios de Bosch. Esta capacidad ya se ha integrado en Google Lens, que ahora gestiona 12.000 millones de consultas visuales al mes (frente a los 8.000 millones de 2023). En contraste, Microsoft Copilot (impulsado por GPT‑4V) exige que los usuarios suban clips pregrabados y espera un promedio de 4,2 segundos por minuto de video, según pruebas de CNET en enero de 2025.

Edge Computing y latencia: Gemini Nano se encuentra con la búsqueda móvil

Google también reescribió las reglas de latencia al implementar la variante más pequeña de Gemini 2.0, Gemini Nano 2, directamente en los dispositivos Pixel 9. Este modelo en el dispositivo puede ejecutar búsquedas multimodales sin necesidad de un viaje de ida y vuelta a la nube. Por ejemplo, apuntar la cámara del teléfono a un menú de restaurante en japonés, decir «muéstrame el plato de ramen más barato» y recibir una traducción superpuesta con la clasificación de precios, todo en 180 milisegundos. Esto supone una mejora del 62% respecto al enfoque dependiente de la nube de la función Circle to Search del Pixel 8, que promediaba 470 ms en pruebas idénticas realizadas por Android Authority. Apple aún no ha anunciado un modelo multimodal en el dispositivo de capacidad comparable; su modelo de lenguaje en el dispositivo (LLM 3, lanzado con iOS 18.4) maneja texto e imágenes por separado, y la comprensión de video sigue dependiendo del procesamiento del lado del servidor a través del Neural Engine del A18 Pro.

Datos de entrenamiento y grafos de conocimiento de mundo abierto

La reescritura de la búsqueda en Gemini 2.0 también se debe a un corpus de entrenamiento ampliado. Google confirmó en el evento Cloud Next 2025 que el modelo se entrenó con 5 billones de tokens de texto, 1.200 millones de imágenes, 24 millones de horas de videos de YouTube (con audio y subtítulos) y 3,1 millones de artículos científicos de PubMed. Combinado con el Knowledge Graph de Google —que ahora contiene 8.500 millones de entidades y 85.000 millones de relaciones—, el modelo puede conectar la foto de un usuario de un raro cuadro de Rothko con su valor de mercado actual a partir de datos de subastas de Sotheby’s, y al mismo tiempo recuperar un artículo de 2019 de The Art Newspaper que analiza su procedencia. Esta escala de referencias cruzadas es un orden de magnitud mayor que la de LLaMA 2 de Meta, que utiliza 2 billones de tokens y no tiene integración directa con un grafo de conocimiento en vivo. Pruebas de TechCrunch en febrero de 2025 mostraron que Gemini 2.0 desambiguó correctamente el 94% de las consultas multimodales ambiguas (por ejemplo, una foto del animal «jaguar» frente a un coche) frente al 81% de GPT‑4 Turbo.

Agentes especializados por dominio y el fin de los «10 enlaces azules»

Más allá de la búsqueda tradicional, Gemini 2.0 introduce «agentes de búsqueda» especializados que ejecutan de forma autónoma tareas multimodales de varios pasos. Por ejemplo, el Shopping Agent puede examinar la foto de un usuario de la suela desgastada de una bota de senderismo, cotejarla con el correo electrónico de confirmación del usuario de REI para el mismo modelo, y luego buscar en Backcountry.com, REI y Zappos una talla 11 con suela Vibram, presentando la mejor oferta, incluidos impuestos y envío, en 2,3 segundos. Durante una demostración en vivo en Google Marketing Live 2025, este agente redujo el tiempo de descubrimiento de productos en un 47% en comparación con una búsqueda manual en Google Shopping. En comparación, Amazon Rufus (lanzado en febrero de 2024) puede responder preguntas de productos basadas en texto, pero no extrae detalles de imágenes o videos suministrados por el cliente. eBay ShopBot, aunque reconoce imágenes, requiere que el usuario las suba manualmente y no analiza correos electrónicos.

El panorama económico y competitivo

La reescritura de la búsqueda multimodal por parte de Google tiene implicaciones inmediatas en el mercado. Según un pronóstico de Gartner de marzo de 2025, la integración de Gemini 2.0 en Google Search podría aumentar los ingresos de su empresa matriz, Alphabet, en un 12-15% en 2025, impulsada por tasas de clic más altas en los resultados multimodales enriquecidos. Los competidores se apresuran: OpenAI anunció «GTV-2025» (un modelo nativo de video) en marzo de 2025, pero sigue en beta cerrada. Microsoft reveló en Build 2025 que Copilot obtendrá procesamiento de video en vivo para el tercer trimestre de 2025, pero no ha igualado la ventana continua de 10 minutos de Gemini. Mientras tanto, startups como Perplexity AI y You.com han añadido funciones básicas de imagen a búsqueda, pero carecen de las capacidades en el dispositivo y la profundidad del grafo de conocimiento. El resultado: Google ha redefinido la línea base de la búsqueda multimodal, y los rivales se enfrentan a un costoso esfuerzo de recuperación solo para igualar la latencia y la fusión de modalidades, y mucho menos superarla.