Decodificação Especulativa: Como os Modelos de IA Estão Ficando Mais Rápidos Sem Ficar Maiores

O Gargalo de Velocidade em Grandes Modelos de Linguagem

Grandes modelos de linguagem geram texto um token de cada vez. Cada token requer uma passagem completa por um modelo que pode ter bilhões de parâmetros, e essas passagens devem ser sequenciais — você não pode gerar o token N+1 até ter o token N. Para um modelo como GPT-4 ou Claude 3, isso significa que a inferência é fundamentalmente serial no nível do token, tornando a latência proporcional ao comprimento da saída. Isso não é um problema de hardware. Mesmo nas GPUs mais rápidas com largura de banda de memória perfeita, a decodificação autoregressiva encontra um limite porque a arquitetura exige isso. A decodificação especulativa contorna essa restrição inteiramente ao mudar o que o grande modelo realmente faz durante uma passagem direta.

O que a Decodificação Especulativa Realmente Faz

A ideia central é enganosamente simples: usar um modelo de rascunho pequeno e rápido para gerar especulativamente uma sequência de tokens candidatos, depois usar o modelo verificador grande para verificar todos eles em uma única passagem direta paralela. Se o modelo grande concordar com os tokens do rascunho, você os aceita todos de uma vez. Se discordar na posição K, você rejeita os tokens de K em diante e reamostra da distribuição do modelo grande naquela posição.

A percepção crítica é que a passagem direta do modelo grande não é limitada pelo comprimento da saída no modo de verificação — ele pode processar um lote de K tokens candidatos em aproximadamente o mesmo tempo que processar um único token para geração. Quando o modelo de rascunho é preciso, você obtém K tokens pelo preço de uma passagem direta do modelo grande. Quando o modelo de rascunho é impreciso, você perde alguma eficiência, mas nunca compromete a qualidade da saída, porque o verificador impõe alinhamento exato com a distribuição do modelo grande.

Formalmente, se o modelo de rascunho propõe o token x na posição i com probabilidade q(x), e o modelo alvo atribui probabilidade p(x), então o token é aceito com probabilidade min(1, p(x)/q(x)). Tokens rejeitados são reamostrados de uma distribuição corrigida (p - q), normalizada. Este esquema de amostragem por rejeição garante que a distribuição final da saída seja idêntica à que você obteria com o modelo grande rodando sozinho — a decodificação especulativa é sem perdas por construção.

Modelos de Rascunho: O Motor por Trás da Aceleração

A qualidade do modelo de rascunho determina tudo. Um modelo de rascunho que atinge uma taxa de aceitação de tokens (TAR) de 80% em entradas típicas proporciona aproximadamente 3–4x de aceleração em sequências longas. Uma TAR de 60% rende 1.5–2x. Abaixo de 50%, a sobrecarga de rodar ambos os modelos começa a consumir os ganhos.

Duas abordagens arquitetônicas dominam na prática:

Modelos pequenos independentes: Um modelo separado treinado nos mesmos dados que o modelo grande, mas com uma fração do tamanho. Por exemplo, usar um modelo de 7B como rascunho para um verificador de 70B. Esta é a abordagem usada no artigo original de decodificação especulativa de Leviathan et al. (2023) e continua sendo a mais amplamente implantada.
Cabeças Medusa: A arquitetura Medusa do Google adiciona múltiplas "cabeças" leves diretamente na camada final do modelo base, cada uma prevendo tokens em diferentes deslocamentos para o futuro (posição +1, +2, +3, etc.) em uma única passagem direta. Como as cabeças Medusa compartilham as representações do modelo base, elas alcançam taxas de aceitação mais altas do que um modelo de rascunho independente pelo mesmo custo computacional. O Medusa-2 melhora ainda mais isso ao ajustar finamente as cabeças junto com o modelo base.

Uma terceira abordagem, a decodificação autoespeculativa, pula certas camadas do modelo grande durante a fase de rascunho e usa o modelo completo para verificação. Isso evita a necessidade de manter um modelo de rascunho separado, mas requer ablação cuidadosa para determinar quais camadas podem ser puladas com segurança por domínio.

Adoção no Mundo Real: Onde a Decodificação Especulativa Está Implantada

A decodificação especulativa passou da pesquisa para a produção em todos os principais laboratórios de IA. O padrão de adoção é revelador: é uma das poucas otimizações de inferência que não requer retreinamento do modelo alvo e não introduz erro de aproximação.

Google DeepMind integrou a decodificação especulativa na infraestrutura de serviço do Gemini em 2024, relatando melhorias de latência de 2x em cargas de trabalho de diálogo. Seus modelos de rascunho internos são destilados dos modelos alvo, dando a eles TAR mais alta do que modelos pequenos genéricos.
SpecInfer da Meta estendeu a ideia para especulação baseada em árvore, onde o modelo de rascunho gera uma árvore de continuações possíveis em vez de uma única sequência. O verificador processa a árvore inteira em uma passagem, selecionando o caminho aceito mais longo. Esta abordagem supera consistentemente a especulação de sequência única quando o modelo de rascunho tem maior incerteza.
Hugging Face / vLLM / TensorRT-LLM todos oferecem decodificação especulativa como um recurso de serviço de primeira classe. No vLLM, habilitar a especulação do modelo de rascunho requer um único parâmetro de configuração e funciona de forma transparente em todos os tamanhos de lote.
Apple usa uma variante para inferência no dispositivo no Apple Intelligence, onde o modelo de rascunho roda no Neural Engine e o verificador roda na GPU — explorando hardware heterogêneo para obter velocidade e qualidade.

As acelerações de produção relatadas variam de 1.5x a 3x dependendo do comprimento da saída, domínio e qualidade do modelo de rascunho. Geração de código e saídas estruturadas tendem a ver as maiores taxas de aceitação porque a distribuição é mais previsível. Texto criativo aberto vê taxas de aceitação mais baixas porque a distribuição do modelo grande é mais plana, tornando os palpites do rascunho menos confiáveis.

Taxas de Aceitação de Tokens e Limitações Práticas

A taxa de aceitação de tokens não é fixa — ela varia por domínio, prompt e arquitetura do modelo de rascunho. Resultados empíricos em benchmarks comuns:

Completamento de código (HumanEval, MBPP): TAR tipicamente 75–85%, aceleração 2.5–3.5x
Sumarização (CNN/DM, XSum): TAR 65–75%, aceleração 2–2.5x
Chat aberto: TAR 55–70%, aceleração 1.5–2x
Tradução: TAR 70–80%, aceleração 2–3x

As principais limitações práticas são:

Sobrecarga de memória: Rodar dois modelos simultaneamente requer manter ambos na memória da GPU. Para um verificador de 70B, adicionar um rascunho de 7B consome aproximadamente 10% mais memória — gerenciável, mas uma restrição em implantações com memória limitada.
Escalonamento do tamanho do lote: A vantagem da decodificação especulativa diminui à medida que o tamanho do lote aumenta. No tamanho de lote 1 (inferência em tempo real de usuário único), os ganhos são máximos. Em tamanhos de lote grandes, a utilização da GPU do modelo grande já é alta e a sobrecarga de rodar o modelo de rascunho compete por recursos computacionais.
Desatualização do modelo de rascunho: Se o modelo alvo for atualizado (fine-tuned, RLHF'd), o modelo de rascunho pode divergir na distribuição e as taxas de aceitação caem. Manter o alinhamento rascunho-verificador ao longo das atualizações do modelo é um custo operacional real.

Além da Decodificação Especulativa: Decodificação Lookahead e Jacobi

Duas técnicas relacionadas emergiram proeminentemente em 2025 que abordam algumas das limitações da decodificação especulativa, particularmente a necessidade de um modelo de rascunho separado.

Decodificação Lookahead (desenvolvida no LMSYS e integrada ao SGLang) decompõe a inferência em dois fluxos paralelos: um ramo de lookahead que gera n-gramas especulativamente usando iteração Jacobi, e um ramo de verificação que seleciona n-gramas corretos de um cache. Nenhum modelo de rascunho é necessário. Em vez disso, o método explora o fato de que a iteração Jacobi sobre sequências de tokens converge rapidamente para sequências que aparecem naturalmente na distribuição de treinamento do modelo. A decodificação Lookahead alcança 1.5–2.3x de aceleração em uma única GPU sem quaisquer pesos de modelo adicionais.

Decodificação Jacobi é a base matemática subjacente ao lookahead. Em vez do loop de decodificação sequencial padrão, ela inicializa todas as posições de saída simultaneamente com tokens aleatórios e então aplica iterações de ponto fixo paralelas até que a sequência se estabilize. Cada iteração atualiza todas as posições em paralelo usando o modelo grande, efetivamente transformando um problema sequencial em um iterativo. A convergência é rápida na prática (2–4 iterações para a maioria das sequências), e a distribuição final é idêntica à decodificação autoregressiva.

EAGLE-2 (2025) estendeu a abordagem Medusa ao tornar a especulação adaptativa: o modelo de rascunho gera uma estrutura de árvore dinâmica baseada em pontuações de confiança, alocando mais candidatos para posições incertas. O EAGLE-2 alcançou 3.5x de aceleração no LLaMA-3-70B-Instruct, o maior número publicado para uma configuração de serviço de modelo único nessa escala.

Em 2026, o foco mudou para especulação de múltiplas etapas com garantias de consistência — sistemas que rodam 2–3 rodadas de especulação por etapa de verificação, aumentando ainda mais a proporção de tokens por passagem direta sem quebrar a propriedade sem perdas. A pilha de serviço interna do Gemini do Google supostamente usa uma cascata de três níveis: um modelo minúsculo (1B), um modelo médio (8B) e o verificador completo, onde o modelo médio serve tanto como verificador para o modelo minúsculo quanto como rascunho para o verificador completo.

O que os Engenheiros Devem Fazer Agora

Se você está construindo ou operando infraestrutura de inferência LLM, a decodificação especulativa deve estar no seu radar para qualquer carga de trabalho sensível à latência. Passos concretos:

Avalie primeiro seu perfil de tamanho de lote. Se as requisições concorrentes p95 por réplica estiverem abaixo de 8, a decodificação especulativa quase certamente ajudará. Acima de 32, os ganhos podem ser marginais e a sobrecarga de memória pode não valer a pena.
Use vLLM ou SGLang como seu ponto de partida. Ambos oferecem decodificação especulativa pronta para produção. No vLLM, defina --speculative-model e --num-speculative-tokens. Meça a TAR no seu tráfego de produção real antes de ajustar.
Para implantações no dispositivo ou de borda, a decodificação lookahead é frequentemente mais prática do que manter dois arquivos de modelo. A implementação lookahead do SGLang funciona sem quaisquer pesos adicionais.
Perfile a TAR específica do domínio. Se você está servindo um domínio estreito (jurídico, médico, código), um modelo de rascunho ajustado finamente para o domínio superará significativamente um genérico. O investimento em ajuste fino de um modelo de rascunho de 1B–3B muitas vezes se paga em semanas em escala.
Fique de olho nos ecossistemas EAGLE-2 e MEDUSA-2. Eles estão se movendo rápido. Se seu modelo alvo é da família LLaMA ou Mistral, cabeças de rascunho treinadas pela comunidade já estão disponíveis no Hugging Face e não requerem investimento em treinamento.

A decodificação especulativa é madura o suficiente para ser usada em produção hoje e ativa o suficiente em pesquisa para que as melhores implementações em 2026 provavelmente pareçam significativamente diferentes do que existe agora. O princípio central — verificar em paralelo, gerar especulativamente — veio para ficar. As arquiteturas de modelo de rascunho e estratégias de especulação sobre ele ainda estão evoluindo rapidamente.