AIO APEX

Spekulative Dekodierung: Wie KI-Modelle schneller werden, ohne größer zu werden

Teilen:
Spekulative Dekodierung: Wie KI-Modelle schneller werden, ohne größer zu werden

Der Geschwindigkeitsengpass bei großen Sprachmodellen

Große Sprachmodelle generieren Text einen Token nach dem anderen. Jeder Token erfordert einen vollständigen Forward Pass durch ein Modell mit möglicherweise Milliarden von Parametern, und diese Passes müssen sequenziell erfolgen – Sie können Token N+1 erst generieren, wenn Sie Token N haben. Bei einem Modell wie GPT-4 oder Claude 3 bedeutet dies, dass die Inferenz auf Token-Ebene grundsätzlich seriell ist, was die Latenz proportional zur Ausgabelänge macht. Dies ist kein Hardware-Problem. Selbst auf den schnellsten GPUs mit perfekter Speicherbandbreite stößt autoregressives Dekodieren an eine Grenze, weil die Architektur es erfordert. Spekulative Dekodierung umgeht diese Einschränkung vollständig, indem sie ändert, was das große Modell während eines Forward Pass tatsächlich tut.

Was spekulative Dekodierung tatsächlich tut

Die Kernidee ist täuschend einfach: Verwenden Sie ein kleines, schnelles Draft-Modell, um spekulativ eine Sequenz von Kandidaten-Token zu generieren, und verwenden Sie dann das große Verifier-Modell, um alle in einem einzigen parallelen Forward Pass zu überprüfen. Wenn das große Modell mit den Token des Drafts übereinstimmt, akzeptieren Sie alle auf einmal. Wenn es an Position K widerspricht, lehnen Sie Token ab K ab und sampeln neu aus der Verteilung des großen Modells an dieser Position.

Der entscheidende Einblick ist, dass der Forward Pass des großen Modells im Verifikationsmodus nicht durch die Ausgabelänge gebunden ist – es kann einen Batch von K Kandidaten-Token in etwa der gleichen Zeit verarbeiten wie einen einzelnen Token zur Generierung. Wenn das Draft-Modell genau ist, erhalten Sie K Token zum Preis eines einzigen Forward Pass des großen Modells. Wenn das Draft-Modell ungenau ist, verlieren Sie etwas Effizienz, aber nie die Ausgabequalität, da der Verifier die exakte Übereinstimmung mit der Verteilung des großen Modells erzwingt.

Formal: Wenn das Draft-Modell Token x an Position i mit Wahrscheinlichkeit q(x) vorschlägt und das Zielmodell Wahrscheinlichkeit p(x) zuweist, wird der Token mit Wahrscheinlichkeit min(1, p(x)/q(x)) akzeptiert. Abgelehnte Token werden aus einer korrigierten Verteilung (p - q) neu gesampelt, normalisiert. Dieses Rejection-Sampling-Schema garantiert, dass die endgültige Ausgabeverteilung identisch mit der ist, die Sie vom großen Modell allein erhalten würden – spekulative Dekodierung ist per Konstruktion verlustfrei.

Draft-Modelle: Der Motor hinter der Beschleunigung

Die Qualität des Draft-Modells bestimmt alles. Ein Draft-Modell, das eine Token-Akzeptanzrate (TAR) von 80 % bei typischen Eingaben erreicht, liefert etwa 3–4x Beschleunigung bei langen Sequenzen. Eine TAR von 60 % ergibt 1,5–2x. Unter 50 % beginnt der Overhead des Betriebs beider Modelle, die Gewinne aufzuzehren.

Zwei architektonische Ansätze dominieren in der Praxis:

  • Unabhängige kleine Modelle: Ein separates Modell, das auf denselben Daten wie das große Modell trainiert wurde, aber mit einem Bruchteil der Größe. Zum Beispiel die Verwendung eines 7B-Modells als Draft für einen 70B-Verifier. Dies ist der Ansatz, der im ursprünglichen Paper zur spekulativen Dekodierung von Leviathan et al. (2023) verwendet wird und bleibt der am weitesten verbreitete.
  • Medusa-Köpfe: Googles Medusa-Architektur fügt mehrere leichte "Köpfe" direkt zur letzten Schicht des Basismodells hinzu, die jeweils Token an verschiedenen Offsets in die Zukunft (Position +1, +2, +3, etc.) in einem einzigen Forward Pass vorhersagen. Da Medusa-Köpfe die Repräsentationen des Basismodells teilen, erreichen sie höhere Akzeptanzraten als ein unabhängiges Draft-Modell bei gleichem Rechenaufwand. Medusa-2 verbessert dies weiter, indem die Köpfe gemeinsam mit dem Basismodell feinabgestimmt werden.

Ein dritter Ansatz, selbst-spekulative Dekodierung, überspringt bestimmte Schichten des großen Modells während der Draft-Phase und verwendet das vollständige Modell zur Verifikation. Dies vermeidet die Notwendigkeit, ein separates Draft-Modell zu unterhalten, erfordert jedoch eine sorgfältige Ablation, um zu bestimmen, welche Schichten pro Domäne sicher übersprungen werden können.

Reale Adoption: Wo spekulative Dekodierung eingesetzt wird

Spekulative Dekodierung hat sich von der Forschung in die Produktion in jedem großen KI-Labor bewegt. Das Adoptionsmuster ist aufschlussreich: Es ist eine der wenigen Inferenzoptimierungen, die kein erneutes Training des Zielmodells erfordert und keine Approximationsfehler einführt.

  • Google DeepMind hat spekulative Dekodierung 2024 in die Serving-Infrastruktur von Gemini integriert und berichtet von 2x Latenzverbesserungen bei Dialog-Workloads. Ihre internen Draft-Modelle werden aus den Zielmodellen destilliert, was ihnen eine höhere TAR als generische kleine Modelle verleiht.
  • Metas SpecInfer erweiterte die Idee auf baumbasierte Spekulation, bei der das Draft-Modell einen Baum möglicher Fortsetzungen anstelle einer einzelnen Sequenz generiert. Der Verifier verarbeitet den gesamten Baum in einem Durchgang und wählt den längsten akzeptierten Pfad aus. Dieser Ansatz übertrifft konsequent die Einzelsequenz-Spekulation, wenn das Draft-Modell eine höhere Unsicherheit aufweist.
  • Hugging Face / vLLM / TensorRT-LLM liefern alle spekulative Dekodierung als erstklassiges Serving-Feature. In vLLM erfordert die Aktivierung der Draft-Modell-Spekulation einen einzigen Konfigurationsparameter und funktioniert transparent über Batch-Größen hinweg.
  • Apple verwendet eine Variante für On-Device-Inferenz in Apple Intelligence, bei der das Draft-Modell auf der Neural Engine und der Verifier auf der GPU läuft – unter Ausnutzung heterogener Hardware, um sowohl Geschwindigkeit als auch Qualität zu erzielen.

Berichtete Produktionsbeschleunigungen reichen von 1,5x bis 3x, abhängig von Ausgabelänge, Domäne und Draft-Modell-Qualität. Codegenerierung und strukturierte Ausgaben neigen zu den höchsten Akzeptanzraten, da die Verteilung vorhersagbarer ist. Offene kreative Texte sehen niedrigere Akzeptanzraten, da die Verteilung des großen Modells flacher ist, was die Schätzungen des Drafts weniger zuverlässig macht.

Token-Akzeptanzraten und praktische Einschränkungen

Die Token-Akzeptanzrate ist nicht festgelegt – sie variiert je nach Domäne, Prompt und Draft-Modell-Architektur. Empirische Ergebnisse über gängige Benchmarks:

  • Code-Vervollständigung (HumanEval, MBPP): TAR typischerweise 75–85 %, Beschleunigung 2,5–3,5x
  • Zusammenfassung (CNN/DM, XSum): TAR 65–75 %, Beschleunigung 2–2,5x
  • Offener Chat: TAR 55–70 %, Beschleunigung 1,5–2x
  • Übersetzung: TAR 70–80 %, Beschleunigung 2–3x

Die wichtigsten praktischen Einschränkungen sind:

  • Speicher-Overhead: Der gleichzeitige Betrieb zweier Modelle erfordert, beide im GPU-Speicher zu halten. Bei einem 70B-Verifier verbraucht das Hinzufügen eines 7B-Drafts etwa 10 % mehr Speicher – handhabbar, aber eine Einschränkung in speicherbegrenzten Umgebungen.
  • Batch-Größen-Skalierung: Der Vorteil der spekulativen Dekodierung nimmt mit zunehmender Batch-Größe ab. Bei Batch-Größe 1 (Einzelbenutzer-Echtzeit-Inferenz) sind die Gewinne maximal. Bei großen Batch-Größen ist die GPU-Auslastung des großen Modells bereits hoch und der Overhead des Betriebs des Draft-Modells konkurriert um Rechenressourcen.
  • Veraltung des Draft-Modells: Wenn das Zielmodell aktualisiert wird (Fine-Tuning, RLHF), kann das Draft-Modell in der Verteilung abweichen und die Akzeptanzraten sinken. Die Aufrechterhaltung der Draft-Verifier-Ausrichtung über Modellaktualisierungen hinweg ist ein echter operativer Aufwand.

Über spekulative Dekodierung hinaus: Lookahead- und Jacobi-Dekodierung

Zwei verwandte Techniken traten 2025 prominent hervor, die einige der Einschränkungen der spekulativen Dekodierung adressieren, insbesondere die Notwendigkeit eines separaten Draft-Modells.

Lookahead-Dekodierung (entwickelt bei LMSYS und integriert in SGLang) zerlegt die Inferenz in zwei parallele Ströme: einen Lookahead-Zweig, der N-Gramme spekulativ mittels Jacobi-Iteration generiert, und einen Verifikationszweig, der korrekte N-Gramme aus einem Cache auswählt. Es ist kein Draft-Modell erforderlich. Stattdessen nutzt die Methode die Tatsache, dass die Jacobi-Iteration über Token-Sequenzen schnell für Sequenzen konvergiert, die natürlich in der Trainingsverteilung des Modells vorkommen. Lookahead-Dekodierung erreicht 1,5–2,3x Beschleunigung auf einer einzelnen GPU ohne zusätzliche Modellgewichte.

Jacobi-Dekodierung ist die mathematische Grundlage hinter Lookahead. Anstelle der standardmäßigen sequenziellen Dekodierungsschleife initialisiert sie alle Ausgabepositionen gleichzeitig mit zufälligen Token und wendet dann parallele Fixpunktiterationen an, bis die Sequenz stabilisiert ist. Jede Iteration aktualisiert alle Positionen parallel unter Verwendung des großen Modells, wodurch ein sequenzielles Problem effektiv in ein iteratives umgewandelt wird. Die Konvergenz ist in der Praxis schnell (2–4 Iterationen für die meisten Sequenzen), und die endgültige Verteilung ist identisch mit der autoregressiven Dekodierung.

EAGLE-2 (2025) erweiterte den Medusa-Ansatz, indem es die Spekulation adaptiv machte: Das Draft-Modell generiert eine dynamische Baumstruktur basierend auf Konfidenzwerten und weist unsicheren Positionen mehr Kandidaten zu. EAGLE-2 erreichte 3,5x Beschleunigung auf LLaMA-3-70B-Instruct, die höchste veröffentlichte Zahl für ein Einzelmodell-Serving-Setup in dieser Größenordnung.

Im Jahr 2026 hat sich der Fokus auf Mehrschritt-Spekulation mit Konsistenzgarantien verlagert – Systeme, die 2–3 Runden Spekulation pro Verifikationsschritt durchführen, wodurch das Token-pro-Forward-Pass-Verhältnis weiter erhöht wird, ohne die Verlustfreiheit zu brechen. Googles interner Gemini-Serving-Stack verwendet Berichten zufolge eine dreistufige Kaskade: ein winziges (1B) Modell, ein mittleres (8B) Modell und den vollständigen Verifier, wobei das mittlere Modell sowohl als Verifier für das winzige Modell als auch als Draft für den vollständigen Verifier dient.

Was Ingenieure jetzt tun sollten

Wenn Sie LLM-Inferenz-Infrastruktur bauen oder betreiben, sollte spekulative Dekodierung für jeden latenzempfindlichen Workload auf Ihrem Radar sein. Konkrete Schritte:

  • Bewerten Sie zuerst Ihr Batch-Größen-Profil. Wenn die p95 gleichzeitigen Anfragen pro Replikat unter 8 liegt, wird spekulative Dekodierung fast sicher helfen. Über 32 können die Gewinne marginal sein und der Speicher-Overhead möglicherweise nicht lohnenswert.
  • Verwenden Sie vLLM oder SGLang als Ausgangspunkt. Beide liefern produktionsreife spekulative Dekodierung. In vLLM setzen Sie --speculative-model und --num-speculative-tokens. Messen Sie TAR auf Ihrem tatsächlichen Produktionstraffic vor dem Tuning.
  • Für On-Device- oder Edge-Bereitstellungen ist Lookahead-Dekodierung oft praktischer als das Unterhalten von zwei Modelldateien. SGLangs Lookahead-Implementierung funktioniert ohne zusätzliche Gewichte.
  • Profilieren Sie domänenspezifische TAR. Wenn Sie eine enge Domäne bedienen (Recht, Medizin, Code), wird ein domänenfeinabgestimmtes Draft-Modell ein generisches deutlich übertreffen. Die Investition in das Fine-Tuning eines 1B–3B Draft-Modells amortisiert sich oft in Wochen bei Skalierung.
  • Beobachten Sie die EAGLE-2- und MEDUSA-2-Ökosysteme. Diese entwickeln sich schnell. Wenn Ihr Zielmodell zur LLaMA- oder Mistral-Familie gehört, sind gemeinschaftlich trainierte Draft-Köpfe bereits auf Hugging Face verfügbar und erfordern keine Trainingsinvestition.

Spekulative Dekodierung ist reif genug, um heute in der Produktion eingesetzt zu werden, und aktiv genug in der Forschung, dass die besten Implementierungen im Jahr 2026 wahrscheinlich deutlich anders aussehen werden als das, was jetzt existiert. Das Kernprinzip – parallel verifizieren, spekulativ generieren – bleibt bestehen. Die Draft-Modell-Architekturen und Spekulationsstrategien darauf aufbauend entwickeln sich noch schnell weiter.

Teilen:
Spekulative Dekodierung: Wie KI-Modelle schneller werden, ohne größer zu werden | AIO APEX