AIO APEX

Décodage spéculatif : comment les modèles d'IA deviennent plus rapides sans devenir plus gros

Partager:
Décodage spéculatif : comment les modèles d'IA deviennent plus rapides sans devenir plus gros

Le goulot d'étranglement de la vitesse dans les grands modèles de langage

Les grands modèles de langage génèrent du texte un token à la fois. Chaque token nécessite un passage avant complet à travers un modèle qui peut avoir des milliards de paramètres, et ces passages doivent être séquentiels — vous ne pouvez pas générer le token N+1 avant d'avoir le token N. Pour un modèle comme GPT-4 ou Claude 3, cela signifie que l'inférence est fondamentalement séquentielle au niveau du token, rendant la latence proportionnelle à la longueur de la sortie. Ce n'est pas un problème matériel. Même sur les GPU les plus rapides avec une bande passante mémoire parfaite, le décodage autorégressif atteint un mur car l'architecture l'exige. Le décodage spéculatif contourne entièrement cette contrainte en changeant ce que le grand modèle fait réellement lors d'un passage avant.

Ce que fait réellement le décodage spéculatif

L'idée centrale est d'une simplicité trompeuse : utiliser un petit draft model rapide pour générer spéculativement une séquence de tokens candidats, puis utiliser le grand verifier model pour tous les vérifier en un seul passage avant parallèle. Si le grand modèle est d'accord avec les tokens du draft, vous les acceptez tous en une fois. S'il n'est pas d'accord à la position K, vous rejetez les tokens à partir de K et ré-échantillonnez à partir de la distribution du grand modèle à cette position.

L'aperçu critique est que le passage avant du grand modèle n'est pas lié à la longueur de la sortie en mode vérification — il peut traiter un lot de K tokens candidats en à peu près le même temps que le traitement d'un seul token pour la génération. Lorsque le draft model est précis, vous obtenez K tokens pour le prix d'un passage avant du grand modèle. Lorsque le draft model est imprécis, vous perdez un peu d'efficacité mais ne compromettez jamais la qualité de la sortie, car le verifier enforce un alignement exact avec la distribution du grand modèle.

Formellement, si le draft model propose le token x à la position i avec une probabilité q(x), et que le modèle cible assigne une probabilité p(x), alors le token est accepté avec une probabilité min(1, p(x)/q(x)). Les tokens rejetés sont ré-échantillonnés à partir d'une distribution corrigée (p - q), normalisée. Ce schéma de rejection sampling garantit que la distribution de sortie finale est identique à ce que vous obtiendriez du grand modèle fonctionnant seul — le décodage spéculatif est sans perte par construction.

Draft models : le moteur derrière l'accélération

La qualité du draft model détermine tout. Un draft model qui atteint un taux d'acceptation de token (TAR) de 80 % sur des entrées typiques offre environ 3 à 4 fois d'accélération sur les longues séquences. Un TAR de 60 % donne 1,5 à 2 fois. En dessous de 50 %, le surcoût de l'exécution des deux modèles commence à gruger les gains.

Deux approches architecturales dominent en pratique :

  • Petits modèles indépendants : Un modèle séparé entraîné sur les mêmes données que le grand modèle mais à une fraction de la taille. Par exemple, utiliser un modèle 7B comme draft pour un verifier 70B. C'est l'approche utilisée dans l'article original sur le décodage spéculatif par Leviathan et al. (2023) et reste la plus largement déployée.
  • Medusa heads : L'architecture Medusa de Google ajoute plusieurs « têtes » légères directement à la couche finale du modèle de base, chacune prédisant des tokens à différents décalages dans le futur (position +1, +2, +3, etc.) en un seul passage avant. Parce que les Medusa heads partagent les représentations du modèle de base, elles atteignent des taux d'acceptation plus élevés qu'un draft model indépendant pour le même coût de calcul. Medusa-2 améliore encore cela en affinant conjointement les têtes avec le modèle de base.

Une troisième approche, le décodage spéculatif auto-suffisant, saute certaines couches du grand modèle pendant la phase de draft et utilise le modèle complet pour la vérification. Cela évite d'avoir à maintenir un draft model séparé mais nécessite une ablation minutieuse pour déterminer quelles couches peuvent être sautées en toute sécurité par domaine.

Adoption dans le monde réel : où le décodage spéculatif est déployé

Le décodage spéculatif est passé de la recherche à la production dans tous les grands laboratoires d'IA. Le modèle d'adoption est révélateur : c'est l'une des rares optimisations d'inférence qui ne nécessite pas de réentraînement du modèle cible et n'introduit aucune erreur d'approximation.

  • Google DeepMind a intégré le décodage spéculatif dans l'infrastructure de service de Gemini en 2024, rapportant des améliorations de latence de 2x sur les charges de travail de dialogue. Leurs draft models internes sont distillés à partir des modèles cibles, leur donnant un TAR plus élevé que les petits modèles génériques.
  • SpecInfer de Meta a étendu l'idée à la spéculation basée sur des arbres, où le draft model génère un arbre de continuations possibles plutôt qu'une seule séquence. Le verifier traite l'arbre entier en un seul passage, sélectionnant le chemin accepté le plus long. Cette approche surpasse systématiquement la spéculation à séquence unique lorsque le draft model a une incertitude plus élevée.
  • Hugging Face / vLLM / TensorRT-LLM intègrent tous le décodage spéculatif comme une fonctionnalité de service de première classe. Dans vLLM, activer la spéculation du draft model nécessite un seul paramètre de configuration et fonctionne de manière transparente sur toutes les tailles de lots.
  • Apple utilise une variante pour l'inférence sur appareil dans Apple Intelligence, où le draft model s'exécute sur le Neural Engine et le verifier sur le GPU — exploitant le matériel hétérogène pour obtenir à la fois vitesse et qualité.

Les accélérations de production rapportées vont de 1,5x à 3x selon la longueur de la sortie, le domaine et la qualité du draft model. La génération de code et les sorties structurées ont tendance à avoir les taux d'acceptation les plus élevés car la distribution est plus prévisible. Le texte créatif ouvert a des taux d'acceptation plus faibles car la distribution du grand modèle est plus plate, rendant les suppositions du draft moins fiables.

Taux d'acceptation des tokens et limitations pratiques

Le taux d'acceptation des tokens n'est pas fixe — il varie selon le domaine, le prompt et l'architecture du draft model. Résultats empiriques sur des benchmarks courants :

  • Complétion de code (HumanEval, MBPP) : TAR généralement 75–85 %, accélération 2,5–3,5x
  • Résumé (CNN/DM, XSum) : TAR 65–75 %, accélération 2–2,5x
  • Chat ouvert : TAR 55–70 %, accélération 1,5–2x
  • Traduction : TAR 70–80 %, accélération 2–3x

Les principales limitations pratiques sont :

  • Surcharge mémoire : Exécuter deux modèles simultanément nécessite de les maintenir tous les deux dans la mémoire GPU. Pour un verifier 70B, ajouter un draft 7B consomme environ 10 % de mémoire supplémentaire — gérable, mais une contrainte dans les déploiements à mémoire limitée.
  • Mise à l'échelle de la taille du lot : L'avantage du décodage spéculatif diminue à mesure que la taille du lot augmente. Avec une taille de lot de 1 (inférence en temps réel pour un seul utilisateur), les gains sont maximaux. Avec de grandes tailles de lot, l'utilisation du GPU du grand modèle est déjà élevée et le surcoût de l'exécution du draft model entre en concurrence pour les ressources de calcul.
  • Obsolescence du draft model : Si le modèle cible est mis à jour (fine-tuning, RLHF), le draft model peut diverger dans sa distribution et les taux d'acceptation chutent. Maintenir l'alignement draft-verifier lors des mises à jour du modèle est un coût opérationnel réel.

Au-delà du décodage spéculatif : Lookahead et Jacobi decoding

Deux techniques connexes ont émergé de manière prominente en 2025 qui répondent à certaines limitations du décodage spéculatif, en particulier le besoin d'un draft model séparé.

Lookahead decoding (développé chez LMSYS et intégré dans SGLang) décompose l'inférence en deux flux parallèles : une branche lookahead qui génère des n-grams spéculativement en utilisant l'itération de Jacobi, et une branche de vérification qui sélectionne les n-grams corrects à partir d'un cache. Aucun draft model n'est requis. Au lieu de cela, la méthode exploite le fait que l'itération de Jacobi sur les séquences de tokens converge rapidement pour les séquences qui apparaissent naturellement dans la distribution d'entraînement du modèle. Lookahead decoding atteint 1,5 à 2,3 fois d'accélération sur un seul GPU sans aucun poids de modèle supplémentaire.

Jacobi decoding est le fondement mathématique sous-jacent au lookahead. Au lieu de la boucle de décodage séquentiel standard, il initialise toutes les positions de sortie simultanément avec des tokens aléatoires, puis applique des itérations parallèles à point fixe jusqu'à ce que la séquence se stabilise. Chaque itération met à jour toutes les positions en parallèle en utilisant le grand modèle, transformant effectivement un problème séquentiel en un problème itératif. La convergence est rapide en pratique (2 à 4 itérations pour la plupart des séquences), et la distribution finale est identique au décodage autorégressif.

EAGLE-2 (2025) a étendu l'approche Medusa en rendant la spéculation adaptative : le draft model génère une structure d'arbre dynamique basée sur des scores de confiance, allouant plus de candidats aux positions incertaines. EAGLE-2 a atteint 3,5 fois d'accélération sur LLaMA-3-70B-Instruct, le nombre publié le plus élevé pour une configuration de service à modèle unique à cette échelle.

En 2026, l'accent s'est déplacé vers la spéculation multi-étapes avec garanties de cohérence — des systèmes qui exécutent 2 à 3 tours de spéculation par étape de vérification, augmentant encore le rapport tokens-par-passage-avant sans rompre la propriété sans perte. La pile de service interne Gemini de Google utiliserait une cascade à trois niveaux : un modèle minuscule (1B), un modèle moyen (8B) et le verifier complet, où le modèle moyen sert à la fois de verifier pour le modèle minuscule et de draft pour le verifier complet.

Ce que les ingénieurs devraient faire maintenant

Si vous construisez ou exploitez une infrastructure d'inférence LLM, le décodage spéculatif devrait être sur votre radar pour toute charge de travail sensible à la latence. Étapes concrètes :

  • Évaluez d'abord votre profil de taille de lot. Si le nombre de requêtes simultanées p95 par réplica est inférieur à 8, le décodage spéculatif aidera presque certainement. Au-dessus de 32, les gains peuvent être marginaux et la surcharge mémoire peut ne pas en valoir la peine.
  • Utilisez vLLM ou SGLang comme point de départ. Les deux intègrent un décodage spéculatif prêt pour la production. Dans vLLM, définissez --speculative-model et --num-speculative-tokens. Mesurez le TAR sur votre trafic de production réel avant d'ajuster.
  • Pour les déploiements sur appareil ou en périphérie, le lookahead decoding est souvent plus pratique que de maintenir deux fichiers de modèle. L'implémentation lookahead de SGLang fonctionne sans aucun poids supplémentaire.
  • Profilez le TAR spécifique au domaine. Si vous servez un domaine étroit (juridique, médical, code), un draft model affiné pour le domaine surpassera significativement un modèle générique. L'investissement dans l'affinage d'un draft model de 1B à 3B est souvent rentabilisé en quelques semaines à grande échelle.
  • Surveillez les écosystèmes EAGLE-2 et MEDUSA-2. Ils évoluent rapidement. Si votre modèle cible est dans la famille LLaMA ou Mistral, des têtes de draft entraînées par la communauté sont déjà disponibles sur Hugging Face et ne nécessitent aucun investissement d'entraînement.

Le décodage spéculatif est suffisamment mature pour être utilisé en production aujourd'hui et suffisamment actif en recherche pour que les meilleures implémentations en 2026 seront probablement sensiblement différentes de ce qui existe maintenant. Le principe central — vérifier en parallèle, générer spéculativement — est là pour rester. Les architectures de draft model et les stratégies de spéculation qui l'accompagnent évoluent encore rapidement.

Partager:
Décodage spéculatif : comment les modèles d'IA deviennent plus rapides sans devenir plus gros | AIO APEX