<?xml version="1.0" encoding="utf-8" standalone="yes"?><rss version="2.0" xmlns:atom="http://www.w3.org/2005/Atom"><channel><title>Reasoning on kaschnai</title><link>https://kaschnai.ch/tags/reasoning/</link><description>Recent content in Reasoning on kaschnai</description><generator>Hugo</generator><language>de</language><lastBuildDate>Thu, 28 May 2026 12:00:00 +0200</lastBuildDate><atom:link href="https://kaschnai.ch/tags/reasoning/index.xml" rel="self" type="application/rss+xml"/><item><title>Reasoning-Models, einfach erklärt</title><link>https://kaschnai.ch/konzepte/2026-05-28-reasoning-models-erklaert/</link><pubDate>Thu, 28 May 2026 12:00:00 +0200</pubDate><guid>https://kaschnai.ch/konzepte/2026-05-28-reasoning-models-erklaert/</guid><description>&lt;p>OpenAI hat o1 am 12. September 2024 als Preview-Release angekündigt (volle Verfügbarkeit Ende 2024), Anthropic hat Extended-Thinking im Februar 2025 nachgezogen, und seitdem ist &amp;ldquo;Reasoning-Model&amp;rdquo; eine eigene Modell-Klasse mit eigenen Trade-offs. Hier knapp was sie unterscheidet, wann sie wirklich helfen, und wann ein normales Modell besser ist.&lt;/p>
&lt;h2 id="in-einem-satz">In einem Satz&lt;/h2>
&lt;p>Reasoning-Models führen vor der finalen Antwort einen sichtbaren mehrstufigen Denk-Prozess (Chain-of-Thought) aus, der oft deutlich mehr Tokens kostet aber bei komplexen Aufgaben spürbar bessere Resultate liefert.&lt;/p></description></item><item><title>Verifiable Process Rewards, einfach erklärt</title><link>https://kaschnai.ch/konzepte/2026-05-28-verifiable-process-rewards-einfach-erkl-rt/</link><pubDate>Thu, 28 May 2026 10:00:00 +0200</pubDate><guid>https://kaschnai.ch/konzepte/2026-05-28-verifiable-process-rewards-einfach-erkl-rt/</guid><description>&lt;p>Diese Woche erschienen gleich drei Arxiv-Paper die eine gemeinsame Frage stellen: Was beim Training von Reasoning-Agenten tatsächlich zählt. Alle drei landen am gleichen Ort - wann und wie ein Modell Feedback bekommt, entscheidet mehr über seine Qualität als der Trainingsalgorithmus selbst.&lt;/p>
&lt;h2 id="in-einem-satz">In einem Satz&lt;/h2>
&lt;p>Verifiable Process Rewards geben einem Modell nach jedem einzelnen Denkschritt eine prüfbare Rückmeldung, statt erst am Ende zu beurteilen, ob das Gesamtergebnis korrekt ist.&lt;/p>
&lt;h2 id="in-drei-absätzen">In drei Absätzen&lt;/h2>
&lt;p>Reinforcement Learning trainiert Modelle über Belohnungssignale. Das klassische Problem bei langen Reasoning-Ketten: Das Signal kommt erst am Ende - entweder hat das Modell die Aufgabe gelöst oder nicht. Diese Spärlichkeit macht es schwer dem Modell beizubringen, wo genau im Denkprozess ein Fehler entstanden ist. Verifiable Process Rewards (VPR) lösen das, indem sie das Feedback auf jeden einzelnen Schritt aufteilen.&lt;/p></description></item></channel></rss>