Reasoning-Models, einfach erklärt

Thu, 28 May 2026 12:00:00 +0200

OpenAI hat o1 am 12. September 2024 als Preview-Release angekündigt (volle Verfügbarkeit Ende 2024), Anthropic hat Extended-Thinking im Februar 2025 nachgezogen, und seitdem ist “Reasoning-Model” eine eigene Modell-Klasse mit eigenen Trade-offs. Hier knapp was sie unterscheidet, wann sie wirklich helfen, und wann ein normales Modell besser ist.

In einem Satz

Reasoning-Models führen vor der finalen Antwort einen sichtbaren mehrstufigen Denk-Prozess (Chain-of-Thought) aus, der oft deutlich mehr Tokens kostet aber bei komplexen Aufgaben spürbar bessere Resultate liefert.

Verifiable Process Rewards, einfach erklärt

Thu, 28 May 2026 10:00:00 +0200

Diese Woche erschienen gleich drei Arxiv-Paper die eine gemeinsame Frage stellen: Was beim Training von Reasoning-Agenten tatsächlich zählt. Alle drei landen am gleichen Ort - wann und wie ein Modell Feedback bekommt, entscheidet mehr über seine Qualität als der Trainingsalgorithmus selbst.

In einem Satz

Verifiable Process Rewards geben einem Modell nach jedem einzelnen Denkschritt eine prüfbare Rückmeldung, statt erst am Ende zu beurteilen, ob das Gesamtergebnis korrekt ist.

In drei Absätzen

Reinforcement Learning trainiert Modelle über Belohnungssignale. Das klassische Problem bei langen Reasoning-Ketten: Das Signal kommt erst am Ende - entweder hat das Modell die Aufgabe gelöst oder nicht. Diese Spärlichkeit macht es schwer dem Modell beizubringen, wo genau im Denkprozess ein Fehler entstanden ist. Verifiable Process Rewards (VPR) lösen das, indem sie das Feedback auf jeden einzelnen Schritt aufteilen.

Reasoning on kaschnai

Reasoning-Models, einfach erklärt

In einem Satz

Verifiable Process Rewards, einfach erklärt

In einem Satz

In drei Absätzen