Reasoning Models denken nicht immer besser: Wann Extended Thinking hilft – und wann es mehr kostet

Extended Reasoning in LLMs – mal Chain-of-Thought, mal Extended Thinking oder einfach „Reasoning-Modus“ genannt – hat sich in überraschend kurzer Zeit von einer Forschungskuriosität zum kommerziellen Produkt entwickelt. OpenAI brachte o1 im September 2024 heraus, DeepSeek veröffentlichte R1 im Januar 2025, und Anthropic lieferte Claude 3.7 Sonnet noch im selben Monat mit optionalem Extended Thinking aus. Mitte 2026 hat fast jeder große LLM-Anbieter eine Reasoning-Stufe, und „Nimm das Reasoning-Modell“ ist zur Standardantwort auf schwierige Prompts geworden.

Das sollte es nicht sein. Die Annahme, dass mehr Denken bessere Ergebnisse liefert, gilt nur unter Bedingungen – und die Bedingungen sind enorm wichtig, vor allem wenn der Reasoning-Modus pro Query das 10- bis 50-Fache eines Standardaufrufs kosten kann und 30 bis 120 Sekunden für eine Antwort braucht. Dieser Guide behandelt die empirischen Belege dafür, wo Reasoning-Modelle ihren Wert verdienen, wo sie aktiv schaden und wie man Systeme baut, die Denkressourcen effizient zuweisen.

Was Reasoning-Modelle tatsächlich anders machen

Bevor wir diskutieren, wann man sie einsetzt, ist es hilfreich, genau zu beschreiben, was sie tun. Extended-Thinking-Modelle haben weder Zugriff auf andere Informationen noch fundamental andere Gewichte – sie weisen zusätzliche Rechenleistung zu, um ein internes Scratchpad mit Zwischenschritten zu generieren, bevor sie eine endgültige Antwort produzieren. Bei Benchmarks wie AIME 2025 (Wettbewerbsmathematik) und SWE-bench Verified (Softwareentwicklung) führt das zu dramatischen Verbesserungen. OpenAIs o3 löste 88 % der AIME-2025-Probleme; GPT-4o etwa 13 %. DeepSeek R1 erreichte die Leistung von o1 bei einem Bruchteil der Inferenzkosten.

Der Mechanismus ist entscheidend: Das Modell führt im Grunde eine Suche über einen Lösungsraum durch, überprüft und revidiert Zwischenschritte. Das ist enorm nützlich, wenn das Problem eine eindeutige, überprüfbare korrekte Antwort hat, wenn die Lösung das gleichzeitige Berücksichtigen mehrerer Randbedingungen erfordert oder wenn der richtige Weg erkennt, dass ein erster Ansatz falsch ist, und ein Zurückverfolgen erfordert.

Wo Reasoning-Modelle klar gewinnen

Mehrschrittige mathematische und logische Probleme. Hier sind die Benchmark-Verbesserungen in der Praxis am zuverlässigsten. Probleme, die das Tragen von Zustand über 10 oder mehr Schritte erfordern – Kombinatorik, Beweisverifikation, Wettbewerbsalgebra – zeigen die konsistentesten Gewinne. Ein Standardmodell verliert häufig Zwischenbedingungen in der Mitte der Kette; ein Reasoning-Modell hält sie aufrecht.

Komplexes Code-Debugging. Wenn ein Bug eine Interaktion zwischen mehreren Komponenten betrifft, liefern Reasoning-Modelle substanziell bessere Diagnosen. Sie sind besonders gut darin, off-by-one-Fehler bei rekursiver Logik, Race Conditions und Type-System-Verstöße zu identifizieren, die sich nur in bestimmten Ausführungspfaden manifestieren. Bei Einzeiler-Fixes und Syntaxfehlern ist die Verbesserung vernachlässigbar.

Adversarial oder Trickfragen. Standardmodelle sind anfällig für suggestive Fragen, die falsche Prämissen enthalten. Reasoning-Modelle bemerken die falsche Prämisse deutlich häufiger und lehnen sie ab. Bei der Überprüfung juristischer Verträge und Finanzanalysen, wo adversarial Framing üblich ist, hat dieser Unterschied messbare Auswirkungen.

Aufgaben mit überprüfbaren Randbedingungen. Terminoptimierung (finde einen Meeting-Zeitpunkt, der die Kalender von 12 Teilnehmern und 5 Raumbeschränkungen erfüllt), Routenplanung und Constraint-Satisfaction-Probleme profitieren alle. Der Schlüssel ist, dass das Modell seine eigene Arbeit anhand der angegebenen Randbedingungen überprüfen kann – Reasoning erlaubt mehr Iterationen dieser Überprüfung.

Wo Reasoning-Modelle nicht helfen – und manchmal schaden

Faktenabruf. „Was ist die Hauptstadt Frankreichs?“ profitiert nicht von einer 45-sekündigen Reasoning-Trace. Auch die meiste Retrieval-Augmented Generation nicht, bei der die Arbeit im Finden und Synthetisieren von Informationen liegt, nicht im Lösen eines Reasoning-Problems. o3 für RAG-basierte Fragebeantwortung zu verwenden, ist teuer, ohne genauer zu sein.

Kreatives Schreiben und offene Generierung. Extended Reasoning verbessert nicht die Prosaqualität. Oft macht es sie schlechter – das Modell überoptimiert auf eine bestimmte Interpretation davon, was „gutes Schreiben“ ausmacht, und verliert die Lockerheit und Überraschung, die generierten Text lebendig wirken lassen. Standardmodelle mit starken System-Prompts und hohen Temperatureinstellungen übertreffen Reasoning-Modelle bei den meisten kreativen Aufgaben.

Konversationsantworten und einfache Klassifikation. Kundendienst-Antwortgenerierung, Sentiment-Klassifikation, Intent-Routing – all das liegt im Fähigkeitsbereich eines schnellen, günstigen Modells. Ein Reasoning-Modell fügt Latenz und Kosten hinzu, ohne Qualitätsverbesserung. In Anwendungen mit hohem Volumen wird das Kostendelta schnell signifikant.

Aufgaben, bei denen Geschwindigkeit wichtiger ist als Genauigkeit. Echtzeit-Autocomplete, Subsekunden-Response-Interfaces und Streaming-Anwendungen können die Latenz von Reasoning-Modellen nicht tolerieren. In diesen Kontexten ist ein schnelleres Standardmodell, das in 90 % der Fälle richtig liegt, strikt besser als ein langsameres Reasoning-Modell, das in 95 % der Fälle richtig liegt.

Der Overthinking-Fehler-Modus

Ein unterschätzter Fehler von Reasoning-Modellen ist „Overthinking“ – ein Phänomen, das von Forschern mehrerer Labore dokumentiert wurde, bei dem das Modell eine lange, korrekt aussehende Reasoning-Trace generiert, aber zur falschen Antwort gelangt, indem es sich eine anfänglich korrekte Intuition ausredet. Das tritt überproportional bei einfachen Problemen auf. Wenn ein Reasoning-Modell mit einem Problem konfrontiert wird, das einfach erscheint, aber ein Oberflächenmerkmal hat, das tiefes Reasoning aktiviert (etwa eine Trickfragen-Rahmung bei einem Problem, das eigentlich keine Tricks erfordert), kann es aufwändige inkorrekte Logik konstruieren.

Die praktische Implikation: Reasoning-Modelle sollten auf aufgabenspezifischen Hold-out-Sets evaluiert werden, bevor sie als pauschales Upgrade eingesetzt werden. Die Annahme „leistungsstärkeres Modell = bessere Ausgabe“ versagt häufiger, als man erwarten würde, im Long Tail realer Prompts.

Ein praktischer Routing-Framework

Die effektivsten Produktionssysteme im Jahr 2026 verwenden einen zweistufigen Routing-Ansatz. Die erste Stufe ist ein leichtgewichtiger Klassifikator – oft ein feinabgestimmtes kleines Modell oder eine einfache Heuristik – der eingehende Anfragen in die Kategorien „braucht Reasoning“ und „braucht kein Reasoning“ sortiert. Die zweite Stufe leitet entsprechend weiter.

Die Routing-Kriterien, die sich in der Praxis bewähren: Probleme, die mehr als 5 aufeinanderfolgende Reasoning-Schritte erfordern, profitieren von Extended Thinking; Probleme, bei denen das Modell mehr als 3 gleichzeitige Randbedingungen aufrechterhalten muss, profitieren; Probleme, bei denen die Ausgabe gegen eine Ground Truth verifiziert wird, profitieren. Alles andere geht an ein Standardmodell.

Im Zweifelsfall messen. Eine A/B-Evaluierung über Ihre tatsächliche Anfrageverteilung – Vergleichen der Ausgaben des Reasoning-Modells mit denen eines starken Standardmodells – an einer repräsentativen Stichprobe von 200 bis 500 Beispielen dauert ein paar Stunden und sagt Ihnen weit mehr als jeder Benchmark darüber, ob Ihre spezifische Arbeitslast die Kosten rechtfertigt. In den meisten realen Anwendungen lautet die Antwort „nur manchmal“. Die Fähigkeit besteht darin, zu wissen, wann diese Zeiten sind.