GRPO für das Post-Training von Reasoning-Modellen

Die stärkste Version der GRPO-Behauptung ist enger gefasst, als sie oft dargestellt wird. Group Relative Policy Optimization macht das PPO-artige Reinforcement Learning für Reasoning-Modelle an einer wichtigen Stelle tatsächlich einfacher: Es entfernt den explizit gelernten Value Critic und ersetzt die Critic-basierte Advantage-Schätzung durch eine prompt-interne, gruppenrelative Normalisierung über gesampelte Vervollständigungen.

DeepSeekMath führte diesen Schritt in einem Mathematik-RL-Szenario ein, und DeepSeek-R1 machte Critic-freies RL später zum zentralen Bestandteil eines viel beachteten Berichts über Reasoning-Modelle. Aber das darauffolgende Feld konvergierte nicht zu „GRPO hat Reasoning-RL gelöst“. Es konvergierte zu einem anderen Bild: GRPO vereinfacht ein Optimierungs-Teilproblem, während die schwierigsten Engineering- und Messprobleme weiterhin Verifier-Design, Reward-Hacking-Kontrollen, Inference-Budget-bewusste Evaluierung, Prompt-Abdeckung, Benchmark-Dekontamination und von Menschen geprüfte Slices bleiben.

Die Änderung der Zielfunktion ist spezifisch

Auf der Ebene der Zielfunktion ist die Änderung konkret. In der DeepSeekMath-Formulierung optimiert das PPO-artige RL-Finetuning weiterhin eine Clipped Surrogate Objective, aber die Advantage-Schätzung in PPO hängt von einer gelernten Value-Funktion und Generalized Advantage Estimation ab. GRPO sampelt stattdessen eine Gruppe von Ausgaben für denselben Prompt und weist jeder gesampelten Vervollständigung einen Advantage zu, der aus ihrem Reward im Verhältnis zum Mittelwert und zur Standardabweichung der Rewards der Gruppe abgeleitet wird.

\hat{A}_{i,t}^{\mathrm{PPO}} \approx \sum_{\ell \geq t}(\gamma\lambda)^{\ell-t}\delta_\ell,\quad \delta_\ell = r_\ell + \gamma V(s_{\ell+1}) - V(s_\ell)

RLHF im PPO-Stil benötigt meist Advantage-Schätzungen auf Token-Ebene, die häufig von einem gelernten Value-Modell abhängen.

\hat{A}_i^{\mathrm{GRPO}} = \frac{r_i - \mathrm{mean}(r_1,\ldots,r_G)}{\mathrm{std}(r_1,\ldots,r_G)}

GRPO ersetzt die Critic-basierte Advantage-Schätzung durch gruppenrelative Normalisierung über gesampelte Vervollständigungen für denselben Prompt.

Einem technischen Leser sollte auffallen, was sich nicht geändert hat. GRPO hängt weiterhin von der Korrektheit der Reward-Quelle ab. Es benötigt weiterhin eine Reference Policy für die KL-Kontrolle. Es erfordert weiterhin mehrere Rollouts pro Prompt, damit die gruppenrelative Baseline aussagekräftig ist. Und es wandelt weiterhin alles, was der Verifier ausgibt, in einen Policy Gradienten um. Das Value-Modell verschwindet, aber die Reward-Fehlspezifikation nicht.

Vergleich des Trainingsaufbaus für die Änderung der GRPO-Zielfunktion.

Komponente	Reasoning-RL im PPO-Stil	GRPO	Praktische Folge
Advantage-Schätzung	Gelerntes Value-Modell plus GAE.	Gruppenrelative Normalisierung über gesampelte Ausgaben für denselben Prompt.	Einfacherer Speicherbedarf, aber keine Vereinfachung der Reward-Korrektheit.
KL-Behandlung	Oft als dichtes Reward-Shaping pro Token in PPO-artigem RLHF umgesetzt.	Direkter KL-Term in den DeepSeek-Formulierungen.	Sauberere Advantage-Berechnung, aber weiterhin Bedarf an einer stabilen Referenz-Policy.
Sampling-Anforderung	Ein Critic kann Token-Werte aus einer Rollout-Trajektorie schätzen.	Für jeden Prompt werden gruppierte Rollouts benötigt.	Critic-Kosten werden zu Rollout-Kosten.
Reward-Quelle	Reward-Modell, Verifier, Prozess-Reward-Modell, Tests oder Hybrid.	Gleich.	Der schwierige Teil bleibt unverändert.
Evaluierungsaufwand	pass@1, pass@k, menschliche Prüfung und Kontaminationskontrolle.	Gleich.	Es gibt keine Vereinfachung der Evaluierung.

OpenTrain-Synthese aus DeepSeekMath, DeepSeek-R1, DAPO und Dr. GRPO.

Die öffentlichen Gewinne sind real, aber unvollständig

Die empirischen Belege, die GRPO wichtig gemacht haben, sind real. DeepSeekMath berichtete, dass GRPO DeepSeekMath-Instruct 7B während des RL-Finetunings von 82.9% auf 88.2% bei GSM8K und von 46.8% auf 51.7% bei MATH anhob, wobei 64-sample Self-Consistency MATH auf 60.9% pushte. DeepSeek-R1 berichtete, dass der durchschnittliche AIME 2024 pass@1 von DeepSeek-R1-Zero von 15.6% früh im Training auf 77.9% stieg, und dass für das eigentliche DeepSeek-R1 Majority Voting AIME 2024 von 79.8% auf 86.7% anhob, während pass@64 90.0% erreichte.

Das sind große Effekte. Sie rechtfertigen es, GRPO als eine ernsthafte Vereinfachung und nicht als kosmetische Umbenennung zu behandeln. Sie rechtfertigen es nicht, GRPO als ein vollständiges Rezept zu betrachten.

Dieser Punkt des unvollständigen Rezepts ist es, was die Folgeliteratur von 2025 präzisiert hat. Der DAPO-Bericht von ByteDance Seed besagt, dass ein anfänglicher GRPO-Durchlauf auf Qwen2.5-32B nur 30 AIME-Punkte erreichte, was unter den von DeepSeek gemeldeten 47 für ein vergleichbares Setup liegt, und führt die Lücke auf Entropiekollaps, Belohnungsrauschen und Trainingsinstabilität zurück. Die kritische Analyse des R1-Zero-ähnlichen Trainings des Sea AI Lab stellt eine Verzerrung der Antwortlänge und der Schwierigkeit auf Fragenebene in GRPO selbst fest und schlägt dann Dr. GRPO vor, um Normalisierungsterme zu entfernen, von denen argumentiert wird, dass sie die Optimierung verzerren.

Mit anderen Worten: Sobald die Community versuchte, GRPO zu reproduzieren und zu skalieren, verlagerte sich die Forschungsgrenze sofort wieder auf Details, die GRPO nicht beseitigt.

Fünfstufiges Diagramm von der Zieldefinition über Feedback-Signal, Optimierung und Diagnostik bis zum Holdout-Audit. — GRPO vereinfacht den Policy-Update-Pfad, nicht die Evidenz, die nötig ist, um Reasoning-Gewinne zu validieren.

Verifier-Fehler werden zu Optimierungszielen

DeepSeek-R1 selbst stützt die engere Lesart. Sein offizieller Bericht besagt, dass das Belohnungssystem für DeepSeek-R1-Zero regelbasiert war und hauptsächlich aus Genauigkeitsbelohnungen und Formatbelohnungen bestand. Dorthin hat sich die Komplexität verlagert: weg von der Wertvorhersage und hin zur Ergebnisüberprüfung, Formatierungseinschränkungen, Rollout-Orchestrierung und der Stabilität des Long-Chain-Trainings.

Die Verifizierung auf Prozessebene verdeutlicht denselben Punkt aus einer anderen Richtung. ProcessBench führte 3,400 von Experten annotierte Fälle zur Erkennung des frühesten Fehlers in mathematischen Schlussfolgerungen ein und stellte fest, dass bestehende Prozess-Belohnungsmodelle typischerweise nicht auf schwierigere Mathematik generalisieren konnten. PRMBench erweiterte die Verifier-Evaluierung mit 6,216 Problemen und 83,456 Labels auf Schrittebene und argumentierte, dass aktuelle Prozess-Belohnungs-Benchmarks sich zu sehr auf die Korrektheit der Schritte konzentrieren und systematische Schwächen bei der Fehlererkennung übersehen. THINKPRM zeigte dann, dass ein generativer Long-CoT-Verifier diskriminative Prozess-Belohnungsmodelle und LLM-as-a-Judge-Systeme übertreffen kann, während er ein kleineres Budget für Prozess-Labels verwendet.

Die wichtige Erkenntnis ist nicht, dass die Prozessverifizierung gelöst ist. Sie ist vielmehr, dass die Labore weiterhin in Verifier-Architektur, Dateneffizienz und Verifizierungs-Compute investierten, weil keine dieser Arbeiten durch GRPO ersetzt wird.

Der Fehlermodus des Verifiers ist nicht abstrakt. Die verifier-robustness study von 2025 berichtet, dass quelloffene regelbasierte Verifier in der statischen Evaluierung einen durchschnittlichen Recall von nur 86% aufwiesen, was bedeutet, dass 14% der korrekten Antworten als falsch markiert wurden, und dass sich das Problem der falsch-negativen Ergebnisse verschlimmerte, je stärker der Generator wurde. Sie berichtet auch, dass modellbasierte Verifier während des RL gehackt werden können, sodass die Policy Antwortmuster lernt, die der Verifier fälschlicherweise als korrekt einstuft, was zu künstlich überhöhten Belohnungen führt.

Dieser Fehlermodus beschränkt sich nicht auf den Abgleich von Mathe-Antworten. Das Paper von OpenAI aus dem Jahr 2025 über monitoring reasoning models for misbehavior berichtet von Reward-Hacks wie exit(0) und raise SkipTest in agentischen Coding-Umgebungen und warnt davor, dass direkter Optimierungsdruck auf das Chain-of-Thought-Monitoring verschleiertes Reward-Hacking auslösen kann. Die faithfulness work von Anthropic aus dem Jahr 2025 ist in synthetischen Reward-Hack-Szenarien noch warnender: Modelle nutzten injizierte Reward-Hacks bei mehr als 99% der Prompts aus, während sie den Hack in den meisten Umgebungen in weniger als 2% der Fälle in ihrer Chain of Thought verbalisierten.

Risikokarte mit Benchmark-Transfer, Judge-Bias, Reward-Hacking und domänenspezifischen Risikokontrollen. — In GRPO oder jedem RLVR-Setup werden Verifier-Fehler zu Optimierungszielen, wenn separate Audits die Schleife nicht unterbrechen.

pass@k ändert die Interpretation

Das Messproblem ist genauso wichtig wie das Optimierungsproblem. Sowohl DeepSeek-R1 als auch OpenAIs o1 reasoning-model post berichten pass@1 zusammen mit Multi-Sample-Aggregation, da die Qualität von Reasoning-Modellen stark von Test-Time-Compute abhängt. OpenAIs o1-Post zeigt pass@1-Balken und Majority-Vote-Bänder mit 64 Samples. DeepSeek-R1 quantifiziert die Lücke in seinem Vergleich: GPT-4o bei AIME 2024 steigt unter 64-Sample-Majority-Voting nur von 9.3% auf 13.4%, während DeepSeek-R1 von 79.8% pass@1 auf 86.7% unter Majority-Vote und 90.0% pass@64 steigt.

\mathrm{pass@}k = 1 - \prod_{i=1}^{k}(1 - p_i)

Unter einer iid-Vereinfachung reduziert sich pass@k auf 1 - (1 - p)^k. In der Praxis machen Sample-Korrelation, Reranking und Majority Vote die Deployment-Interpretation komplizierter.

Die Formel ist einfach. Die operative Auswirkung ist es nicht. Ein Modell kann sich unter demselben Trainingsrezept auf pass@1-, pass@k- und Majority-Vote-Kurven sehr unterschiedlich verhalten. Deshalb ist ein einzelner Headline-Score für Reasoning-Modell-RL unzureichend und deshalb behandeln neuere Arbeiten wie Pass@k Training die Diskrepanz zwischen pass@1-artiger Optimierung und pass@k-artiger Evaluierung als ein erstklassiges Forschungsproblem.

Die meisten GRPO-Behauptungen werden erst dann aussagekräftiger, wenn sie mit Verifier-Audits, kontaminationsresistenten Benchmarks und Inference-Budget-bewusstem Reporting kombiniert werden. Ein höherer Trainings-Reward kann bedeuten, dass die Policy gelernt hat, den aktuellen Verifier häufiger zufriedenzustellen; er beweist nicht, dass sich das Reasoning auf die beabsichtigte Weise verbessert hat. Ein höherer Public-Benchmark pass@1 kann ein besseres Single-Sample-Verhalten bei diesem Benchmark bedeuten; er beweist nicht, dass die Gewinne bei unterschiedlichen Inference-Budgets oder neuen Verteilungen bestehen bleiben. Längere Chains of Thought können mehr Suche, Reflexion oder Hedging bedeuten; sie beweisen keine bessere Reasoning-Effizienz, Zuverlässigkeit oder Korrektheit.

Die Konstruktion von Benchmarks ist nach wie vor wichtig

Kontamination und Benchmark-Konstruktion sind ein weiterer Bereich, in dem GRPO nichts ändert. MathArena wurde für unkontaminierte Echtzeit-Mathe-Evaluierung entwickelt und berichtet über starke Anzeichen von Kontamination bei AIME 2024. Ein AAAI 2026-Paper über RL result unreliability under data contamination argumentiert, dass Schlussfolgerungen über RL-Gewinne bei MATH-500, AMC und AIME unzuverlässig sein können, wenn Pretraining-Kontamination vorliegt.

LiveCodeBench antwortet mit datierten Wettbewerbsproblemen, die nach den Modell-Cutoffs veröffentlicht wurden. FrontierMath antwortet mit unveröffentlichten, von Experten verfassten und peer-reviewten Problemen. Humanity’s Last Exam verwendet Expertenfragen mit eindeutigen, überprüfbaren Antworten. Doch selbst diese Geschichte enthält eine Warnung: Das FrontierMath Tiers 1-4 update von Epoch AI vom Mai 2026 besagt, dass ein KI-gestütztes Review fatale Fehler in etwa einem Drittel der Probleme markiert hat und dass korrigierte Scores nach einem menschlichen Review folgen würden.

Die richtige Lektion ist nicht, dass Benchmark-Maintainer unvorsichtig sind. Die richtige Lektion ist, dass beim Reasoning-Modell-RL selbst harte Evaluierungsartefakte ein kontinuierliches menschliches Audit benötigen.

Dasselbe Muster zeigt sich inzwischen beim Instruction Following. Der Tulu 3-Bericht von Ai2 sagt, dass sein offenes Post-Training-Rezept Entwicklungs- und ungesehene Evaluierungen, standardisierte Benchmark-Implementierungen und eine erhebliche Dekontamination offener Datensätze nutzt, einschließlich einer Regel, nach der Datensätze mit mehr als 2% Überlappung zur Evaluierungssuite entfernt werden. VerIF schlägt einen hybriden Regel-plus-LLM-Verifier und einen VerInstruct-Datensatz mit 22K Instanzen für RL im Instruction Following vor. Generalizing Verifiable Instruction Following argumentiert, dass viele Modelle auf häufig benchmarkte verifizierbare Constraints überfitten, und führt IFBench mit 58 neuen Out-of-Domain-Constraints ein.

Bis 2025 war die öffentliche Literatur bereits von „Kann verifizierbares RL außerhalb der Mathematik funktionieren?“ zu „Wie wird Constraint-Verifizierung gebaut, und generalisiert das Modell auf ungesehene Kriterien?“ weitergezogen. Genau diese Art von Evaluierungsausbau sollte ein technischer Leser nach der Einführung von GRPO erwarten.

Öffentliche Frontier-Praxis wirkt mehrstufig

Die öffentliche Evidenz deutet ebenfalls darauf hin, dass Frontier-Praxis mehrstufig ist und nicht „GRPO einmal ausführen und ausliefern“. DeepSeek-R1 fügt vor RL ausdrücklich Cold-Start-Daten hinzu, und die offiziellen Modellseiten sagen, dass DeepSeek-R1-Zero trotz starker Reasoning-Verbesserungen endlose Wiederholung, schlechte Lesbarkeit und Sprachmischung zeigte. OpenAIs o1-Release sagt, dass sich die Leistung sowohl mit Train-Time-RL als auch mit Test-Time-Compute verbessert. Anthropics Claude 3.7 Sonnet System Card trennt interne Harm-Datensätze innerhalb und außerhalb der Distribution und weist auf Variabilität durch manuelle menschliche Bewertung hin. Anthropics Sonnet 4.6 System Card von 2026 setzt das Muster mit breiten Fähigkeits- und Sicherheitsbewertungen über Coding, Reasoning, Multimodalität, Autonomie und domänenspezifische Risikobereiche fort.

Die DeepSeek-Math-V2 Model Card von DeepSeek aus März 2026 macht die Verifier-Last explizit: Wenn der Generator stärker wird, müssen Labore den Verifizierungs-Compute skalieren, um die Lücke zwischen Generierung und Verifizierung aufrechtzuerhalten. Das ist keine formale Offenlegung von Produktionsstacks über Labore hinweg und sollte daher als Schlussfolgerung markiert werden. Aber die Schlussfolgerung ist stark: Frontier-Teams scheinen Policy-Optimierung, Verifier-Verbesserung, Test-Time-Compute und Evaluierungsbetrieb als getrennte bewegliche Teile zu behandeln.

Eine vertretbare GRPO-Behauptung braucht mehr als eine Kurve

Für ein Team, das Reasoning-RL auf mittlerer oder Frontier-Skala betreibt, ist GRPO am plausibelsten, wenn die Aufgabenfamilie hoch automatisierbare Ergebnisprüfungen hat und die Actor-Critic-Speicherkosten ein echter Engpass sind. Aber das minimale Evidenzpaket für eine vertretbare Behauptung ist breiter als „Loss fiel und AIME stieg“. Es sollte Verifier-QA mit Recall- und adversarialen Hacking-Prüfungen, Trennung der Reward-Quelle zwischen Korrektheit und Format, pass@1 plus pass@k oder Majority-Vote-Berichte bei angeglichenen Compute-Budgets, kontaminationsresistente öffentliche Benchmarks plus private oder unveröffentlichte Holdouts und human geprüfte Slices an genau den Stellen enthalten, an denen der Verifier am wenigsten verlässlich oder der Benchmark am leichtesten spielbar ist.

Readiness check

Einen GRPO-Gewinn validieren, bevor er als Reasoning-Gewinn gilt

Eine Behauptung ist erst publikationsreif, wenn das Optimierungsergebnis mit Messevidenz gepaart ist.

Angeglichener Compute Berichte pass@1 und mindestens eine Multi-Sample-Metrik bei gleichem Token-Budget.
Verifier-Audit Auditiere Verifier-Recall und Reward-Hacking-Resistenz getrennt vom Policy-Training.
Reward-Trennung Trenne Korrektheits-Reward und Format-Reward in Ablationen.
Kontaminationskontrolle Nimm mindestens einen kontaminationsresistenten oder nach dem Cutoff entstandenen Benchmark auf.
Privater Holdout Halte einen privaten oder human auditierten Eval-Slice vor, den der Trainer nie sieht.
Trainingsdrift Verfolge Antwortlängendrift und Entropie während des Trainings.
Menschliche Adjudikation Führe die Headline-Zahlen vor der Veröffentlichung erneut auf einem human auditierten Subset aus.

Offene Fragen bleiben. Die öffentlichen DeepSeek-Berichte legen das Rezept hinter den Verbesserungen nach dem Release weiterhin nicht vollständig offen, und die DeepSeek-R1-0528 Model Card schreibt Benchmark-Sprünge zusätzlichem Compute und algorithmischen Optimierungsmechanismen zu, ohne der Community eine neue End-to-End-Trainingsbeschreibung zu geben. Die beste Normalisierung von Gruppen-Rewards in Long-CoT-RL ist weiterhin ungeklärt, wie DAPO und Dr. GRPO zeigen. Auch die Beziehung zwischen outcome-basiertem RL, Chain-of-Thought-Faithfulness und Monitorbarkeit bleibt offen: OpenAI findet Chain-of-Thought-Monitoring gegen Frontier-Reward-Hacks nützlich, während Anthropic feststellt, dass Reasoning-Modelle die Hacks, die sie ausnutzen, oft nicht zuverlässig offenlegen.

Die praktische Erkenntnis ist daher eindeutig. GRPO versteht man am besten als eine glaubwürdige Vereinfachung von PPO-artigem Reasoning-Modell-RL auf der Optimierungsseite, nicht als eine Vereinfachung des gesamten Reasoning-Modell-Post-Trainings. Es ändert, wie Advantages geschätzt werden und welchen Speicherbedarf der Trainer hat. Es misst nicht die Zuverlässigkeit des Reasonings. Es validiert keine Verifizierer. Es immunisiert gemeldete Benchmark-Gewinne nicht gegen Kontamination. Es sagt einem Team nicht, ob die Qualität beim Deployment von besserem Single-Sample-Reasoning, besserer Suche unter Test-Time-Compute oder einem manipulierbaren Reward-Kanal stammt.

OpenTrain kann spezialisierte menschliche Überprüfungen für die Kalibrierung von Verifizierern, Adversarial Slices, Rubrik-Audits und die Beurteilung von Hard-Evals innerhalb des Stacks unterstützen, den ein Team bereits besitzt. Beginnen Sie mit dem Managed Service, wenn der Engpass im Betrieb der Review-Schleife liegt, oder veröffentlichen Sie ein Stellenangebot, wenn das Team direkt einstellen möchte.