AIO APEX

Decodificación Especulativa: Cómo los Modelos de IA se Vuelven Más Rápidos Sin Hacerse Más Grandes

Compartir:
Decodificación Especulativa: Cómo los Modelos de IA se Vuelven Más Rápidos Sin Hacerse Más Grandes

El Cuello de Botella de Velocidad en los Grandes Modelos de Lenguaje

Los grandes modelos de lenguaje generan texto un token a la vez. Cada token requiere un forward pass completo a través de un modelo que puede tener miles de millones de parámetros, y esos passes deben ser secuenciales — no puedes generar el token N+1 hasta que tengas el token N. Para un modelo como GPT-4 o Claude 3, esto significa que la inferencia es fundamentalmente serial a nivel de token, haciendo que la latencia sea proporcional a la longitud de salida. Esto no es un problema de hardware. Incluso en las GPU más rápidas con ancho de banda de memoria perfecto, la decodificación autoregresiva choca contra un muro porque la arquitectura lo exige. La decodificación especulativa evita esta restricción por completo al cambiar lo que el modelo grande realmente hace durante un forward pass.

Qué Hace Realmente la Decodificación Especulativa

La idea central es engañosamente simple: usar un draft model pequeño y rápido para generar especulativamente una secuencia de tokens candidatos, luego usar el verifier model grande para verificar todos ellos en un solo forward pass paralelo. Si el modelo grande está de acuerdo con los tokens del draft, los aceptas todos a la vez. Si está en desacuerdo en la posición K, rechazas los tokens desde K en adelante y vuelves a muestrear de la distribución del modelo grande en esa posición.

La idea crítica es que el forward pass del modelo grande no está limitado por la longitud de salida en modo de verificación — puede procesar un lote de K tokens candidatos en aproximadamente el mismo tiempo que procesar un solo token para generación. Cuando el draft model es preciso, obtienes K tokens por el precio de un forward pass del modelo grande. Cuando el draft model es impreciso, pierdes algo de eficiencia pero nunca comprometes la calidad de salida, porque el verifier impone una alineación exacta con la distribución del modelo grande.

Formalmente, si el draft model propone el token x en la posición i con probabilidad q(x), y el modelo objetivo asigna probabilidad p(x), entonces el token se acepta con probabilidad min(1, p(x)/q(x)). Los tokens rechazados se vuelven a muestrear de una distribución corregida (p - q), normalizada. Este esquema de rejection sampling garantiza que la distribución de salida final sea idéntica a la que obtendrías del modelo grande funcionando solo — la decodificación especulativa es lossless por construcción.

Draft Models: El Motor Detrás de la Aceleración

La calidad del draft model lo determina todo. Un draft model que logra una tasa de aceptación de tokens (TAR) del 80% en entradas típicas proporciona aproximadamente 3–4x de aceleración en secuencias largas. Un TAR del 60% produce 1.5–2x. Por debajo del 50%, la sobrecarga de ejecutar ambos modelos comienza a consumir las ganancias.

Dos enfoques arquitectónicos dominan en la práctica:

  • Modelos pequeños independientes: Un modelo separado entrenado en los mismos datos que el modelo grande pero a una fracción del tamaño. Por ejemplo, usar un modelo de 7B como draft para un verifier de 70B. Este es el enfoque utilizado en el artículo original de decodificación especulativa de Leviathan et al. (2023) y sigue siendo el más ampliamente implementado.
  • Medusa heads: La arquitectura Medusa de Google añade múltiples "heads" ligeros directamente a la capa final del modelo base, cada uno prediciendo tokens en diferentes desplazamientos hacia el futuro (posición +1, +2, +3, etc.) en un solo forward pass. Debido a que los Medusa heads comparten las representaciones del modelo base, logran tasas de aceptación más altas que un draft model independiente por el mismo costo computacional. Medusa-2 mejora aún más esto ajustando conjuntamente los heads con el modelo base.

Un tercer enfoque, la decodificación especulativa propia, omite ciertas capas del modelo grande durante la fase de draft y usa el modelo completo para la verificación. Esto evita la necesidad de mantener un draft model separado, pero requiere una ablación cuidadosa para determinar qué capas se pueden omitir de manera segura por dominio.

Adopción en el Mundo Real: Dónde se Implementa la Decodificación Especulativa

La decodificación especulativa ha pasado de la investigación a la producción en todos los laboratorios importantes de IA. El patrón de adopción es revelador: es una de las pocas optimizaciones de inferencia que no requiere reentrenamiento del modelo objetivo e introduce ningún error de aproximación.

  • Google DeepMind integró la decodificación especulativa en la infraestructura de servicio de Gemini en 2024, reportando mejoras de latencia de 2x en cargas de trabajo de diálogo. Sus draft models internos se destilan de los modelos objetivo, dándoles un TAR más alto que los modelos pequeños genéricos.
  • Meta's SpecInfer extendió la idea a la especulación basada en árboles, donde el draft model genera un árbol de posibles continuaciones en lugar de una sola secuencia. El verifier procesa todo el árbol en un solo pass, seleccionando la ruta aceptada más larga. Este enfoque supera consistentemente a la especulación de secuencia única cuando el draft model tiene mayor incertidumbre.
  • Hugging Face / vLLM / TensorRT-LLM todos incluyen la decodificación especulativa como una característica de servicio de primera clase. En vLLM, habilitar la especulación del draft model requiere un solo parámetro de configuración y funciona de manera transparente en todos los tamaños de lote.
  • Apple usa una variante para inferencia en dispositivo en Apple Intelligence, donde el draft model se ejecuta en el Neural Engine y el verifier se ejecuta en la GPU — explotando hardware heterogéneo para obtener tanto velocidad como calidad.

Las aceleraciones reportadas en producción van desde 1.5x hasta 3x dependiendo de la longitud de salida, el dominio y la calidad del draft model. La generación de código y las salidas estructuradas tienden a ver las tasas de aceptación más altas porque la distribución es más predecible. El texto creativo abierto ve tasas de aceptación más bajas porque la distribución del modelo grande es más plana, haciendo que las suposiciones del draft sean menos confiables.

Tasas de Aceptación de Tokens y Limitaciones Prácticas

La tasa de aceptación de tokens no es fija — varía según el dominio, el prompt y la arquitectura del draft model. Resultados empíricos en benchmarks comunes:

  • Completación de código (HumanEval, MBPP): TAR típicamente 75–85%, aceleración 2.5–3.5x
  • Resumen (CNN/DM, XSum): TAR 65–75%, aceleración 2–2.5x
  • Chat abierto: TAR 55–70%, aceleración 1.5–2x
  • Traducción: TAR 70–80%, aceleración 2–3x

Las principales limitaciones prácticas son:

  • Sobrecarga de memoria: Ejecutar dos modelos simultáneamente requiere mantener ambos en la memoria de la GPU. Para un verifier de 70B, agregar un draft de 7B consume aproximadamente un 10% más de memoria — manejable, pero una restricción en implementaciones con limitaciones de memoria.
  • Escalado del tamaño de lote: La ventaja de la decodificación especulativa disminuye a medida que aumenta el tamaño del lote. Con tamaño de lote 1 (inferencia en tiempo real de un solo usuario), las ganancias son máximas. Con tamaños de lote grandes, la utilización de la GPU del modelo grande ya es alta y la sobrecarga de ejecutar el draft model compite por los recursos computacionales.
  • Obsolescencia del draft model: Si el modelo objetivo se actualiza (fine-tuning, RLHF), el draft model puede divergir en distribución y las tasas de aceptación caen. Mantener la alineación draft-verifier a través de actualizaciones del modelo es un costo operativo real.

Más Allá de la Decodificación Especulativa: Lookahead y Decodificación Jacobi

Dos técnicas relacionadas surgieron prominentemente en 2025 que abordan algunas de las limitaciones de la decodificación especulativa, particularmente la necesidad de un draft model separado.

Lookahead decoding (desarrollado en LMSYS e integrado en SGLang) descompone la inferencia en dos flujos paralelos: una rama de lookahead que genera n-gramas especulativamente usando iteración Jacobi, y una rama de verificación que selecciona n-gramas correctos de un caché. No se requiere ningún draft model. En cambio, el método explota el hecho de que la iteración Jacobi sobre secuencias de tokens converge rápidamente para secuencias que aparecen naturalmente en la distribución de entrenamiento del modelo. Lookahead decoding logra una aceleración de 1.5–2.3x en una sola GPU sin ningún peso de modelo adicional.

Jacobi decoding es la base matemática subyacente al lookahead. En lugar del bucle de decodificación secuencial estándar, inicializa todas las posiciones de salida simultáneamente con tokens aleatorios y luego aplica iteraciones de punto fijo paralelas hasta que la secuencia se estabiliza. Cada iteración actualiza todas las posiciones en paralelo usando el modelo grande, convirtiendo efectivamente un problema secuencial en uno iterativo. La convergencia es rápida en la práctica (2–4 iteraciones para la mayoría de las secuencias), y la distribución final es idéntica a la decodificación autoregresiva.

EAGLE-2 (2025) extendió el enfoque Medusa haciendo la especulación adaptativa: el draft model genera una estructura de árbol dinámica basada en puntuaciones de confianza, asignando más candidatos a posiciones inciertas. EAGLE-2 logró una aceleración de 3.5x en LLaMA-3-70B-Instruct, el número más alto publicado para una configuración de servicio de un solo modelo a esa escala.

En 2026, el enfoque se ha desplazado a la especulación de múltiples pasos con garantías de consistencia — sistemas que ejecutan 2–3 rondas de especulación por paso de verificación, aumentando aún más la relación tokens-por-forward-pass sin romper la propiedad lossless. La pila de servicio interna de Gemini de Google utiliza supuestamente una cascada de tres niveles: un modelo pequeño (1B), un modelo mediano (8B) y el verifier completo, donde el modelo mediano sirve tanto como verifier para el modelo pequeño como draft para el verifier completo.

Qué Deberían Hacer los Ingenieros Ahora

Si estás construyendo u operando infraestructura de inferencia LLM, la decodificación especulativa debería estar en tu radar para cualquier carga de trabajo sensible a la latencia. Pasos concretos:

  • Evalúa primero tu perfil de tamaño de lote. Si las solicitudes concurrentes p95 por réplica están por debajo de 8, la decodificación especulativa casi con certeza ayudará. Por encima de 32, las ganancias pueden ser marginales y la sobrecarga de memoria puede no valer la pena.
  • Usa vLLM o SGLang como punto de partida. Ambos incluyen decodificación especulativa lista para producción. En vLLM, establece --speculative-model y --num-speculative-tokens. Mide el TAR en tu tráfico de producción real antes de ajustar.
  • Para implementaciones en dispositivo o edge, lookahead decoding es a menudo más práctico que mantener dos archivos de modelo. La implementación de lookahead de SGLang funciona sin pesos adicionales.
  • Perfila el TAR específico del dominio. Si estás sirviendo un dominio estrecho (legal, médico, código), un draft model ajustado al dominio superará significativamente a uno genérico. La inversión en ajustar un draft model de 1B–3B a menudo se recupera en semanas a escala.
  • Observa los ecosistemas de EAGLE-2 y MEDUSA-2. Estos se están moviendo rápido. Si tu modelo objetivo está en la familia LLaMA o Mistral, los draft heads entrenados por la comunidad ya están disponibles en Hugging Face y no requieren inversión en entrenamiento.

La decodificación especulativa es lo suficientemente madura para usarse en producción hoy y lo suficientemente activa en investigación como para que las mejores implementaciones en 2026 probablemente se vean significativamente diferentes de lo que existe ahora. El principio central — verificar en paralelo, generar especulativamente — ha llegado para quedarse. Las arquitecturas de draft model y las estrategias de especulación sobre él aún están evolucionando rápidamente.

Compartir:
Decodificación Especulativa: Cómo los Modelos de IA se Vuelven Más Rápidos Sin Hacerse Más Grandes | AIO APEX