Reasoning-Models, einfach erklärt

OpenAI hat o1 am 12. September 2024 als Preview-Release angekündigt (volle Verfügbarkeit Ende 2024), Anthropic hat Extended-Thinking im Februar 2025 nachgezogen, und seitdem ist “Reasoning-Model” eine eigene Modell-Klasse mit eigenen Trade-offs. Hier knapp was sie unterscheidet, wann sie wirklich helfen, und wann ein normales Modell besser ist.

In einem Satz

Reasoning-Models führen vor der finalen Antwort einen sichtbaren mehrstufigen Denk-Prozess (Chain-of-Thought) aus, der oft deutlich mehr Tokens kostet aber bei komplexen Aufgaben spürbar bessere Resultate liefert.

In drei Absätzen

Konzeptionell ist der Unterschied zwischen normalen und Reasoning-Models was die Modelle zwischen Frage und Antwort tun dürfen. Ein normales Modell generiert direkt Token für Token die Antwort. Ein Reasoning-Modell generiert erst einen internen Denk-Block (oft “Reasoning-Trace” genannt) der zwischen 500 und 50000 Tokens lang sein kann, und liefert erst danach die finale Antwort. Der Reasoning-Trace ist je nach Anbieter sichtbar (DeepSeek R1, Claude mit Extended-Thinking) oder versteckt (OpenAI o1, o3).

Mechanisch ist Reasoning-Modell ein Trainingsverfahren, kein Architektur-Unterschied. Die Modelle nutzen die gleichen Transformer-Backbones wie ihre nicht-reasoning-Geschwister, sind aber zusätzlich auf Datasets trainiert die Chain-of-Thought-Strukturen rewarden. Wichtig ist das Process-Reward-Modell (PRM), das nicht nur die finale Antwort sondern jeden Zwischenschritt bewertet. Das macht die Reasoning-Traces qualitativ besser als wenn du einfach “let’s think step by step” an einen normalen Prompt anhängst.

Relevant werden Reasoning-Models wenn deine Aufgabe mehrere Logik-Schritte verlangt oder verifizierbar ist: Mathematik, Code-Debugging, mehrstufige Planungs-Probleme, formale Beweise. Bei diesen profitierst du oft 15-40% Genauigkeit gegenüber dem Standard-Modell. Bei schreib-orientierten Aufgaben (Kreativ-Schreiben, Übersetzen, Stil-Anpassung) hilft Reasoning oft wenig oder verschlechtert sogar (das Modell “denkt” zu viel über Mikro-Stil-Fragen nach). Cost-Aspekt: Reasoning-Tokens werden voll mit-gerechnet, ein Schreib-Auftrag der normalerweise 500 Tokens kostet, kann mit Reasoning auf 5000-15000 Tokens kommen, was 10-30x teurer ist.

Tief, wenn du willst

Was im Reasoning-Trace passiert: typisch sind exploratorische Patterns. Das Modell formuliert die Aufgabe um, listet mögliche Ansätze, probiert einen, merkt dass es falsch ist, korrigiert sich, kommt zur Antwort. Bei OpenAI o1/o3 ist der Trace komplett versteckt (du siehst nur die Antwort plus Token-Anzahl), bei Claude mit Extended-Thinking und DeepSeek R1 sichtbar. Sichtbar-vs-versteckt ist nicht nur Transparency-Frage: sichtbarer Trace erlaubt dir als Builder Test-Cases zu schreiben gegen einzelne Reasoning-Schritte, was die Verlässlichkeit deines Systems verbessert.

Process-Reward-Modell ist der Trainings-Trick. Statt nur das Endergebnis zu rewarden (klassisches RLHF), bekommt das Modell pro Reasoning-Schritt Feedback ob der Schritt sinnvoll war. Das ist teuer im Training (jeder Schritt braucht eine Bewertung), aber das Resultat ist deutlich kohärentere Reasoning-Traces. Ein Arxiv-Paper aus Februar 2025 hat gezeigt dass PRM-trainierte Modelle 25-40% bessere Resultate auf mathematischen Olympiade-Aufgaben liefern als RLHF-only-Modelle gleicher Grösse.

Wann Reasoning HURTS, nicht hilft: bei einfachen Recall-Fragen verschwendet es Tokens ohne Mehrwert. Bei kreativen Schreib-Aufgaben tendiert es dazu, “regelhaft” zu werden statt frei. Bei Tasks mit klaren Stilanforderungen (Marketing-Copy, narratives Erzählen) führt das Reasoning oft zu over-engineered Antworten. Ein LessWrong-Post von Anfang 2026 hat das systematisch gezeigt: für 30% der getesteten Aufgaben war das nicht-Reasoning-Modell qualitativ besser, plus deutlich billiger.

Hybrid-Pattern in Produktion: viele Builder nutzen Reasoning nur als Fallback. Erst der Standard-Modell-Call mit niedriger Temperature, dann ein Verifier-Check (kann ein anderes Modell oder eine Heuristik sein), und nur wenn der Verifier unzufrieden ist, ein Reasoning-Re-Try. Spart 60-80% der Reasoning-Cost bei vergleichbarem Endresultat. Hamel Husain hat eine gute Discussion dazu auf seinem Blog.

Modell-Vergleiche Stand Mai 2026: OpenAI o3 ist der State-of-the-Art bei reinen Math/Code-Benchmarks (FrontierMath, MATH-500, USAMO), Claude mit Extended-Thinking ist konkurrenzfähig und der Trace ist nutzbar fürs Debugging, DeepSeek R1 ist die offene-Modell-Variante (kostenlos abrufbar in vielen Varianten), Gemini 2.5 Pro hat Reasoning-Mode mit kompaktesten Traces. Wenn du auf Cost optimierst und mit etwas Quality-Verlust leben kannst, schau bei Qwen-QwQ-32B vorbei, das ist mit lokalem Setup nutzbar.

Cost-Watch ist Pflicht wenn du Reasoning-Modelle in Produktion einbaust. Eine typische Reasoning-Antwort kostet 5-15x mehr als die normale Variante. Bei hohem Volumen rechnet sich das nur wenn die Verbesserung des Outputs den Cost-Anstieg wirklich wert ist. Faustregel: messe in deinem konkreten Use-Case erst was Quality-Gewinn der Reasoning-Variante bringt, bevor du sie standardmässig einsetzst.

Wo dir das diese Woche begegnet ist

In der Aggregation der letzten Tage waren mehrere Reasoning-Bezüge: ein Arxiv-Paper zu Verifiable-Process-Rewards (das wir gerade in einem eigenen Konzept-Stück erklären), Diskussionen auf r/LocalLLaMA über DeepSeek-R1-quantized-Versions für lokale Inference, plus die laufende Debatte ob OpenAI o-Series oder Anthropic Extended-Thinking besseres Trace-Quality liefert. Konsens unter Indie-Buildern aktuell: für Coding hat o3 die Nase vorn, für Research-Reasoning ist Claude stärker, für lokale Setups ist DeepSeek-R1 das einzige seriöse Option.

Wenn du selber ein Reasoning-Modell zum ersten Mal nutzst: schreibe gleichzeitig den gleichen Prompt an die nicht-reasoning-Variante und vergleiche Output, Cost und Time. Du wirst schnell merken, ob es für deinen Use-Case lohnt.

Erklärt 2026-05-28 durch kaschnai-Konzept-Pipeline. Quality-Gates: 3-Tier-Klarheit (Gate 12), Source-Diversity (6 Quellen). Nächste Frische-Prüfung: 2027-05-28.