Los modelos de IA ahora pueden leer todo tu código fuente. Esto es lo que eso cambia realmente.

La ventana de contexto se ha convertido en el campo de batalla técnico definitorio del ciclo actual de la IA. En dieciocho meses, el techo práctico para los modelos basados en Transformer se ha expandido de 128K tokens a más de 1 millón, y con Gemini 2.5 Pro, a 2 millones. Ese número suele presentarse como una especificación del producto. Merece un vistazo más de cerca.

Un token equivale aproximadamente a tres cuartos de una palabra. Un millón de tokens son aproximadamente 750 000 palabras, equivalentes a diez novelas promedio, un documento legal de 2000 páginas, o la mayor parte del código fuente de una empresa de software mediana. Cuando un modelo puede contener todo eso en su contexto de trabajo simultáneamente, los tipos de preguntas que puedes hacerle cambian fundamentalmente.

De fragmento a sistema

El caso de uso original de los asistentes de código era el autocompletado: escribe el nombre de una función, obtén unas líneas de continuación plausible. Eso sigue funcionando bien. Pero el cambio interesante ocurre cuando el modelo tiene acceso a todo el sistema: cada archivo, cada import, cada contrato de interfaz (Interface Contract).

Claude Opus 4.8 de Anthropic admite 1 millón de tokens con una fuerte precisión de recuperación en toda la ventana, un problema que afectaba a los intentos anteriores de contexto largo. Gemini 2.5 Pro de Google alcanza los 2 millones de tokens. GPT-4.1 de OpenAI se sitúa en 1 millón. La carrera ya no se trata de si puedes leer un documento grande, sino de si el modelo puede actuar de manera coherente sobre lo que leyó.

Para el desarrollo de software, esto significa algo concreto: un modelo que ha leído tu módulo de autenticación, tu esquema de base de datos, tu capa de API y tu suite de pruebas simultáneamente está trabajando desde la misma imagen completa que un ingeniero senior tiene en su cabeza. Cuando sugiere una refactorización (Refactor), puede ver el radio de explosión. Cuando encuentra un bug, puede rastrearlo a través de tres capas de abstracción.

Lo que realmente mejora

Las ganancias más fiables del contexto largo están en tareas que son inherentemente globales: análisis de dependencias, auditorías de seguridad, revisión de arquitectura, refactorización entre archivos. Estas son tareas donde el análisis fragmentario fue siempre el cuello de botella, no la capacidad de razonamiento del modelo.

Las tareas de recuperación también mejoran cualitativamente. Los enfoques anteriores para el análisis de documentos grandes se basaban en RAG: dividir documentos, incrustarlos (Embedding), recuperar piezas relevantes en el momento de la consulta. RAG es un workaround para el contexto limitado e introduce fisuras: el recuperador podría no devolver el fragmento correcto, el Embedding podría pasar por alto relaciones semánticas, el modelo nunca ve dos piezas de evidencia que habrían hecho la conexión obvia. El contexto de documento completo elimina esas fisuras para documentos que caben dentro de la ventana.

Los flujos de trabajo de análisis legal y financiero ya se están reconstruyendo en torno a esta capacidad. Un modelo que lee un acuerdo de adquisición completo, con todos los anexos y apéndices, puede responder preguntas de referencias cruzadas que habrían requerido que un abogado correlacionara cláusulas manualmente. El modelo no reemplaza al abogado, pero elimina el paso de recuperación que consumía la mayor parte del tiempo facturable.

El problema de la dilución de la atención (Attention Dilution)

Las ganancias no son uniformes. Varias evaluaciones independientes han documentado un modo de fallo consistente en los modelos de contexto largo: el rendimiento se degrada cuando la información relevante está enterrada en el medio de la ventana de contexto. El fenómeno tiene un nombre en la literatura de investigación: el problema "perdido en el medio" (Lost in the Middle).

Google y Anthropic han realizado inversiones arquitectónicas explícitas para abordar esto: Gemini 2.5 utiliza codificaciones posicionales aprendidas (Learned Positional Encodings) diseñadas para la recuperación a largo plazo, mientras que Anthropic informa una mejora en la uniformidad de recuperación en la serie Claude 4.x. Pero ninguna de las dos empresas ha publicado evaluaciones completas de "aguja en un pajar" (Needle-in-a-Haystack) a 1 millón de tokens para que el público las verifique de forma independiente.

También está la cuestión del coste. La escalabilidad del presupuesto de tokens significa que una llamada de 1 millón de tokens es significativamente más cara que una de 100K. En la práctica, los tokens de prompt en caché (Cached Prompt Tokens) reducen esto: el almacenamiento en caché de prompts de Anthropic reduce los costes de contexto en un 90% para llamadas repetidas, haciendo que la ventana de 1 millón sea manejable para aplicaciones que reutilizan contextos grandes en múltiples consultas.

Donde todavía no es suficiente

El video sigue siendo la frontera. Un video de una hora a 24 fps contiene 86 400 fotogramas. La comprensión de video nativa opera sobre entrada submuestreada: Gemini 1.5 Pro maneja un fotograma por segundo con procesamiento de audio separado. Para análisis de vigilancia o revisión de video de larga duración, esta compresión pierde demasiada información.

La segunda limitación es la memoria activa. Una ventana de contexto es estática: es lo que el modelo cargó al inicio de la conversación. Para aplicaciones que necesitan rastrear el estado en evolución a través de muchas sesiones, las ventanas de contexto se complementan pero no se reemplazan con sistemas de memoria externa: bases de datos, almacenes de vectores, arquitecturas aumentadas con memoria.

Qué significa esto para los desarrolladores ahora mismo

Hay tres cosas que vale la pena hacer de manera diferente ahora que las ventanas de contexto de 1 millón de tokens están listas para producción:

Deja de sobredividir tus pipelines de RAG. Para documentos de menos de 500 páginas, el contexto de documento completo superará a los enfoques aumentados por recuperación en tareas de precisión. Construye el pipeline de RAG para escalar a través de muchos documentos, no para compensar el tamaño del documento.

Usa la ventana de contexto para la revisión de código a nivel de sistema antes de abrir un PR. Alimentar una rama de característica completa (Feature Branch) – todos los archivos modificados, el diff, los archivos de prueba relevantes – a una sola llamada de modelo con un prompt de revisión estructurada captura problemas entre archivos que la revisión por archivo individual pierde por diseño.

Revisa las suposiciones sobre lo que requiere Fine-tuning. Muchas tareas para las que la gente hacía Fine-tuning – resumen de documentos, coincidencia de estilo, extracción de entidades de corpus de dominio específico – ahora pueden manejarse en contexto con ejemplos y acceso completo al documento. El Fine-tuning sigue ganando para inferencia sensible a la latencia y distribuciones de entrenamiento estrechas, pero ya no es el primer recurso.

La ventana de contexto sigue expandiéndose. Las preguntas que vale la pena hacer ya no son sobre el techo – son sobre lo que construyes cuando ese techo ya no es la restricción.