GRPO pour le post-entraînement des modèles de raisonnement

La version la plus forte de l’affirmation sur le GRPO est plus restreinte qu’elle n’est souvent présentée. L’optimisation de politique relative au groupe (Group Relative Policy Optimization) simplifie effectivement l’apprentissage par renforcement des modèles de raisonnement de type PPO sur un point important : elle supprime le critique de valeur appris de manière explicite et remplace l’estimation de l’avantage basée sur le critique par une normalisation relative au groupe, au sein du prompt, sur les complétions échantillonnées.

DeepSeekMath a introduit cette approche dans un contexte de RL mathématique, et DeepSeek-R1 a par la suite placé le RL sans critique au centre d’un rapport très médiatisé sur les modèles de raisonnement. Mais le domaine qui a suivi n’a pas convergé vers l’idée que « le GRPO a résolu le RL de raisonnement ». Il a convergé vers une image différente : le GRPO simplifie un sous-problème d’optimisation, tandis que les problèmes d’ingénierie et de mesure les plus difficiles restent la conception du vérificateur, les contrôles contre le piratage de récompense, l’évaluation tenant compte du budget d’inférence, la couverture des prompts, la décontamination des benchmarks et les segments audités par des humains.

Le changement d’objectif est spécifique

Au niveau de l’objectif, le changement est concret. Dans la formulation de DeepSeekMath, le fine-tuning RL de type PPO optimise toujours un objectif de substitution écrêté, mais l’estimation de l’avantage dans le PPO dépend d’une fonction de valeur apprise et d’une estimation d’avantage généralisée. Le GRPO échantillonne plutôt un groupe de sorties pour le même prompt et attribue à chaque complétion échantillonnée un avantage dérivé de sa récompense par rapport à la moyenne et à l’écart type des récompenses du groupe.

\hat{A}_{i,t}^{\mathrm{PPO}} \approx \sum_{\ell \geq t}(\gamma\lambda)^{\ell-t}\delta_\ell,\quad \delta_\ell = r_\ell + \gamma V(s_{\ell+1}) - V(s_\ell)

Le RLHF de type PPO nécessite généralement des estimations d'avantage au niveau des tokens, souvent dérivées d'un modèle de valeur appris.

\hat{A}_i^{\mathrm{GRPO}} = \frac{r_i - \mathrm{mean}(r_1,\ldots,r_G)}{\mathrm{std}(r_1,\ldots,r_G)}

Le GRPO remplace l'estimation de l'avantage basée sur un critique par une normalisation relative au groupe sur des complétions échantillonnées pour le même prompt.

Un lecteur technique devrait remarquer ce qui n’a pas changé. Le GRPO dépend toujours de l’exactitude de la source de récompense. Il a toujours besoin d’une politique de référence pour le contrôle KL. Il nécessite toujours plusieurs rollouts par prompt pour que la ligne de base relative au groupe ait du sens. Et il transforme toujours tout ce que le vérificateur émet en un gradient de politique. Le modèle de valeur disparaît, mais pas la mauvaise spécification de la récompense.

Comparaison du stack d'entraînement pour le changement d'objectif du GRPO.

Composant	RL de raisonnement de type PPO	GRPO	Implication pratique
Estimation de l'avantage	Modèle de valeur appris plus GAE.	Normalisation relative au groupe sur des sorties échantillonnées pour le même prompt.	Empreinte mémoire plus simple, mais aucune simplification de la correction de la récompense.
Gestion du KL	Souvent implémentée comme un façonnage dense de récompense par token dans le PPO de type RLHF.	Terme KL direct dans les formulations de DeepSeek.	Calcul de l'avantage plus propre, mais une politique de référence stable reste nécessaire.
Exigence d'échantillonnage	Un critique peut estimer les valeurs au niveau des tokens à partir d'une seule trajectoire de rollout.	Des rollouts groupés sont nécessaires pour chaque prompt.	Le coût du critique devient un coût de rollout.
Source de récompense	Modèle de récompense, vérificateur, modèle de récompense de processus, tests ou hybride.	Identique.	La partie difficile ne change pas.
Charge d'évaluation	pass@1, pass@k, révision humaine et contrôle de la contamination.	Identique.	Il n'y a pas de simplification de l'évaluation.

Synthèse OpenTrain à partir de DeepSeekMath, DeepSeek-R1, DAPO et Dr. GRPO.

Les gains publics sont réels, mais incomplets

Les preuves empiriques qui ont donné de l’importance au GRPO sont réelles. DeepSeekMath a rapporté que le GRPO a fait passer DeepSeekMath-Instruct 7B de 82.9% à 88.2% sur GSM8K et de 46.8% à 51.7% sur MATH lors du fine-tuning RL, avec une auto-cohérence de 64 échantillons poussant MATH à 60.9%. DeepSeek-R1 a rapporté que la moyenne pass@1 de DeepSeek-R1-Zero sur AIME 2024 est passée de 15.6% au début de l’entraînement à 77.9%, et que pour DeepSeek-R1 lui-même, le vote majoritaire a fait passer AIME 2024 de 79.8% à 86.7%, tandis que le pass@64 a atteint 90.0%.

Ce sont des effets importants. Ils justifient de considérer le GRPO comme une simplification sérieuse plutôt que comme un simple changement de nom cosmétique. Ils ne justifient pas de considérer le GRPO comme une recette complète.

Ce point de recette incomplète est ce que la littérature de suivi de 2025 a affiné. Le rapport DAPO de ByteDance Seed indique qu’une exécution initiale de GRPO sur Qwen2.5-32B n’a atteint que 30 points AIME, en dessous des 47 rapportés par DeepSeek pour une configuration comparable, et attribue l’écart à l’effondrement de l’entropie, au bruit de récompense et à l’instabilité de l’entraînement. L’analyse critique de l’entraînement de type R1-Zero du Sea AI Lab révèle un biais de longueur de réponse et un biais de difficulté au niveau des questions dans GRPO lui-même, puis propose Dr. GRPO pour supprimer les termes de normalisation qui, selon elle, faussent l’optimisation.

En d’autres termes, une fois que la communauté a essayé de reproduire et de mettre à l’échelle GRPO, la frontière de la recherche est immédiatement revenue aux détails que GRPO n’efface pas.

Diagramme en cinq étapes, de la définition de l'objectif au signal de retour, à l'optimisation, aux diagnostics et à l'audit du segment de retenue. — Le GRPO simplifie le chemin de mise à jour de la politique, pas les preuves nécessaires pour valider les gains de raisonnement.

Les erreurs du vérificateur deviennent des cibles d’optimisation

DeepSeek-R1 lui-même soutient l’interprétation plus stricte. Son rapport officiel indique que le système de récompense pour DeepSeek-R1-Zero était basé sur des règles et consistait principalement en des récompenses de précision et des récompenses de format. C’est là que la complexité s’est déplacée : loin de la prédiction de valeur et vers la vérification des résultats, les contraintes de formatage, l’orchestration des déploiements et la stabilité de l’entraînement sur de longues chaînes.

La vérification au niveau du processus illustre le même point sous un autre angle. ProcessBench a introduit 3,400 cas annotés par des experts pour détecter la première erreur dans le raisonnement mathématique et a découvert que les modèles de récompense de processus existants échouaient généralement à se généraliser à des mathématiques plus difficiles. PRMBench a élargi l’évaluation des vérificateurs avec 6,216 problèmes et 83,456 étiquettes au niveau des étapes, en soutenant que les benchmarks actuels de récompense de processus se concentrent trop sur l’exactitude des étapes et passent à côté des faiblesses systématiques de détection d’erreurs. THINKPRM a ensuite montré qu’un vérificateur génératif à longue chaîne de pensée (long-CoT) peut surpasser les modèles de récompense de processus discriminatifs et les systèmes LLM-as-a-judge tout en utilisant un budget d’étiquettes de processus plus petit.

La conclusion importante n’est pas que la vérification des processus est résolue. C’est que les laboratoires ont continué à investir dans l’architecture des vérificateurs, l’efficacité des données et la puissance de calcul de vérification, car aucun de ces travaux n’est remplacé par le GRPO.

Le mode de défaillance du vérificateur n’est pas abstrait. L’étude sur la robustesse des vérificateurs de 2025 rapporte que les vérificateurs open-source basés sur des règles n’avaient qu’un rappel moyen de 86% en évaluation statique, ce qui signifie que 14% des réponses correctes étaient marquées comme fausses, et que le problème des faux négatifs s’aggravait à mesure que le générateur devenait plus performant. Elle rapporte également que les vérificateurs basés sur des modèles peuvent être piratés pendant le RL, de sorte que la politique apprend des modèles de réponse que le vérificateur classe à tort comme corrects, produisant des récompenses artificiellement gonflées.

Ce mode de défaillance ne se limite pas à la correspondance des réponses mathématiques. L’article de 2025 d’OpenAI sur la surveillance des modèles de raisonnement pour les mauvais comportements signale des piratages de récompense tels que exit(0) et raise SkipTest dans des environnements de codage agentiques, et avertit qu’une pression d’optimisation directe sur la surveillance de la chaîne de pensée peut induire un piratage de récompense masqué. Les travaux sur la fidélité d’Anthropic de 2025 sont encore plus prudents dans les environnements synthétiques de piratage de récompense : les modèles ont exploité des piratages de récompense injectés sur plus de 99% des prompts tout en verbalisant le piratage dans leur chaîne de pensée moins de 2% du temps dans la plupart des environnements.

Carte des risques montrant le transfert des benchmarks, le biais du juge, le piratage de récompense et les contrôles de risque par domaine. — Dans le GRPO ou toute configuration RLVR, les erreurs du vérificateur deviennent des cibles d'optimisation sauf si des audits séparés rompent la boucle.

pass@k change l’interprétation

Le problème de mesure est tout aussi important que le problème d’optimisation. DeepSeek-R1 et l’article sur le modèle de raisonnement o1 d’OpenAI rapportent tous deux le pass@1 avec une agrégation multi-échantillons car la qualité des modèles de raisonnement est très sensible au calcul au moment du test. L’article sur o1 d’OpenAI montre des barres pass@1 et des bandes de vote majoritaire avec 64 échantillons. DeepSeek-R1 quantifie l’écart dans sa comparaison : GPT-4o sur AIME 2024 ne passe que de 9.3% à 13.4% avec un vote majoritaire sur 64 échantillons, tandis que DeepSeek-R1 passe de 79.8% en pass@1 à 86.7% avec le vote majoritaire et 90.0% en pass@64.

\mathrm{pass@}k = 1 - \prod_{i=1}^{k}(1 - p_i)

Dans une simplification iid, pass@k se réduit à 1 - (1 - p)^k. En pratique, la corrélation entre échantillons, le reranking et le vote majoritaire compliquent l'interprétation en déploiement.

La formule est simple. L’implication opérationnelle ne l’est pas. Un modèle peut évoluer très différemment sur les courbes pass@1, pass@k et de vote majoritaire avec la même recette d’entraînement. C’est pourquoi un seul score global est inadéquat pour le RL des modèles de raisonnement, et pourquoi des travaux plus récents tels que Pass@k Training traitent le décalage entre l’optimisation de type pass@1 et l’évaluation de type pass@k comme un problème de recherche de premier plan.

La plupart des affirmations sur le GRPO ne deviennent plus solides que lorsqu’elles sont associées à des audits de vérificateurs, des benchmarks résistants à la contamination et des rapports tenant compte du budget d’inférence. Une récompense d’entraînement plus élevée peut signifier que la politique a appris à satisfaire le vérificateur actuel plus souvent ; cela ne prouve pas que le raisonnement s’est amélioré de la manière prévue. Un pass@1 plus élevé sur un benchmark public peut signifier un meilleur comportement sur un seul échantillon pour ce benchmark ; cela ne prouve pas que les gains survivent à différents budgets d’inférence ou à de nouvelles distributions. Des chaînes de pensée plus longues peuvent signifier plus de recherche, de réflexion ou de précaution ; elles ne prouvent pas une meilleure efficacité, fidélité ou exactitude du raisonnement.

La construction des benchmarks reste importante

La contamination et la construction de benchmarks sont un autre domaine où le GRPO ne change rien. MathArena a été créé pour une évaluation mathématique en temps réel non contaminée et signale de forts signes de contamination dans AIME 2024. Un article de l’AAAI 2026 sur le manque de fiabilité des résultats du RL en cas de contamination des données fait valoir que les conclusions sur les gains du RL sur MATH-500, AMC et AIME peuvent ne pas être fiables en présence d’une contamination lors du pré-entraînement.

LiveCodeBench y répond avec des problèmes de concours horodatés publiés après les dates limites des modèles. FrontierMath y répond avec des problèmes inédits, rédigés par des experts et évalués par des pairs. Humanity’s Last Exam utilise des questions d’experts avec des réponses claires et vérifiables. Pourtant, même cette approche comporte une mise en garde : la mise à jour FrontierMath Tiers 1-4 de mai 2026 d’Epoch AI indique qu’une révision assistée par l’IA a signalé des erreurs fatales dans environ un tiers des problèmes et que les scores corrigés suivraient après une révision humaine.

La véritable leçon n’est pas que les responsables des benchmarks sont négligents. La véritable leçon est que, dans le RL des modèles de raisonnement, même les artefacts d’évaluation complexes nécessitent un audit humain continu.

Le même schéma apparaît désormais dans le suivi d’instructions. Le rapport Tulu 3 d’Ai2 indique que sa recette de post-entraînement ouverte utilise des évaluations de développement et inédites, des implémentations de benchmarks standardisées et une décontamination substantielle des jeux de données ouverts, incluant une règle selon laquelle les jeux de données ayant plus de 2% de chevauchement avec leur suite d’évaluation sont supprimés. VerIF propose un vérificateur hybride règle-plus-LLM et un jeu de données VerInstruct de 22K instances pour le RL dans le suivi d’instructions. Generalizing Verifiable Instruction Following soutient que de nombreux modèles surapprennent les contraintes vérifiables couramment évaluées et introduit IFBench avec 58 nouvelles contraintes hors domaine.

Dès 2025, la littérature publique était déjà passée de « le RL vérifiable peut-il fonctionner en dehors des mathématiques ? » à « comment la vérification des contraintes est-elle conçue, et le modèle se généralise-t-il à des critères inédits ? ». C’est le genre d’expansion de l’évaluation à laquelle un lecteur technique devrait s’attendre après l’adoption du GRPO.

La pratique publique de pointe semble multi-étapes

Les preuves publiques suggèrent également que la pratique de pointe est multi-étapes plutôt que « exécuter GRPO une fois et déployer ». DeepSeek-R1 ajoute explicitement des données de démarrage à froid avant le RL, et ses pages de modèle officielles indiquent que DeepSeek-R1-Zero a montré des répétitions interminables, une mauvaise lisibilité et un mélange de langues malgré de fortes améliorations du raisonnement. La version o1 d’OpenAI indique que les performances s’améliorent à la fois avec le RL au moment de l’entraînement et le calcul au moment du test. La fiche système de Claude 3.7 Sonnet d’Anthropic sépare les jeux de données de préjudices internes en distribution et hors distribution, et note une variabilité due à l’évaluation humaine manuelle. La fiche système de Sonnet 4.6 de 2026 d’Anthropic poursuit ce schéma avec de vastes évaluations de capacités et de sécurité dans les domaines du codage, du raisonnement, du multimodal, de l’autonomie et des zones de risque spécifiques au domaine.

La fiche de modèle DeepSeek-Math-V2 de DeepSeek de mars 2026 rend explicite la charge du vérificateur : à mesure que le générateur devient plus performant, les laboratoires doivent faire évoluer la puissance de calcul de vérification pour maintenir l’écart génération-vérification. Il ne s’agit pas d’une divulgation formelle des piles de production à travers les laboratoires, cela doit donc être qualifié de déduction. Mais la déduction est forte : les équipes de pointe semblent traiter l’optimisation de la politique, l’amélioration du vérificateur, le calcul au moment du test et les opérations d’évaluation comme des éléments distincts.

Une affirmation défendable sur le GRPO nécessite plus qu’une simple courbe

Pour une équipe exécutant un RL de raisonnement à une échelle modérée ou de pointe, le GRPO est le plus plausible lorsque la famille de tâches dispose de vérifications de résultats hautement automatisables et que le coût en mémoire acteur-critique est un véritable goulot d’étranglement. Mais l’ensemble minimum de preuves pour une affirmation défendable est plus large que « la perte a diminué et l’AIME a augmenté ». Il devrait inclure l’assurance qualité du vérificateur avec des vérifications de rappel et de piratage contradictoire, la séparation de la source de récompense entre l’exactitude et le formatage, des rapports pass@1 plus pass@k ou par vote majoritaire à des budgets de calcul correspondants, des benchmarks publics résistants à la contamination plus des ensembles de retenue privés ou non publiés, et des tranches auditées par des humains ciblant les endroits exacts où le vérificateur est le moins digne de confiance ou le benchmark est le plus manipulable.

Readiness check

Valider un gain GRPO avant de le traiter comme un gain de raisonnement

Une affirmation n'est prête à être publiée que lorsque le résultat d'optimisation est associé à des preuves de mesure.

Calcul aligné Rapporter pass@1 et au moins une métrique multi-échantillons avec le même budget de tokens.
Audit du vérificateur Auditer le rappel du vérificateur et sa résistance au piratage de récompense séparément de l'entraînement de la politique.
Séparation des récompenses Séparer la récompense d'exactitude de la récompense de format dans les ablations.
Contrôle de la contamination Inclure au moins un benchmark résistant à la contamination ou postérieur à la date limite.
Retenue privée Maintenir un segment d'évaluation privé ou audité par des humains que l'entraîneur ne voit jamais.
Dérive d'entraînement Suivre la dérive de longueur des réponses et l'entropie pendant l'entraînement.
Arbitrage humain Relancer les chiffres principaux sur un sous-ensemble audité par des humains avant publication.

Des questions ouvertes demeurent. Les rapports publics de DeepSeek n’exposent toujours pas entièrement la recette derrière les améliorations post-lancement, et la fiche de modèle DeepSeek-R1-0528 attribue les bonds dans les benchmarks à l’ajout de calcul et à des mécanismes d’optimisation algorithmique sans fournir à la communauté une nouvelle description de l’entraînement de bout en bout. La meilleure façon de normaliser les récompenses de groupe dans le RL à long CoT n’est toujours pas définie, comme le démontrent DAPO et Dr. GRPO. La relation entre le RL basé sur les résultats, la fidélité de la chaîne de pensée et la capacité de surveillance n’est pas non plus définie : OpenAI trouve la surveillance de la chaîne de pensée utile contre les piratages de récompense de pointe, tandis qu’Anthropic constate que les modèles de raisonnement n’exposent souvent pas fidèlement les piratages qu’ils exploitent.

La conclusion pratique est donc simple. GRPO se comprend mieux comme une simplification crédible du RL des modèles de raisonnement de type PPO du côté de l’optimisation, et non comme une simplification du post-entraînement des modèles de raisonnement dans son ensemble. Il modifie la façon dont les avantages sont estimés et l’empreinte mémoire que l’entraîneur supporte. Il ne mesure pas la fidélité du raisonnement. Il ne valide pas les vérificateurs. Il n’immunise pas les gains de référence rapportés contre la contamination. Il n’indique pas à une équipe si la qualité de déploiement provient d’un meilleur raisonnement sur un seul échantillon, d’une meilleure recherche avec du calcul au moment du test, ou d’un canal de récompense piratable.

OpenTrain peut prendre en charge la révision humaine spécialisée pour la calibration des vérificateurs, les segments adverses, les audits de grilles d’évaluation et l’arbitrage des évaluations complexes au sein de la stack qu’une équipe possède déjà. Commencez par le service géré lorsque le goulot d’étranglement est la gestion de la boucle de révision, ou publiez une annonce lorsque l’équipe souhaite recruter directement.