RLAIF contre RLHF : Ce que le feedback de l'IA peut et ne peut pas remplacer

Là où le feedback de l'IA peut mettre à l'échelle la supervision post-entraînement, et là où les objectifs fondés sur l'humain, le calibrage, l'évaluation par des experts et.
Le RLAIF ne remplace pas le RLHF au sens fort que les gros titres laissent entendre. En date du 4 juin 2026, les preuves publiques les plus solides soutiennent une affirmation plus restreinte et plus utile : les retours de l’IA peuvent souvent remplacer une couche intermédiaire coûteuse dans le post-entraînement, à savoir la génération de critiques à grande échelle, l’étiquetage des préférences par paires et certaines boucles itératives d’amélioration des politiques.
Mais la même littérature montre également des échecs répétés lorsque les équipes considèrent l’évaluateur synthétique comme la vérité de terrain. Les modèles de récompense qui obtiennent de bons résultats sur des benchmarks statiques peuvent échouer à prédire les préférences humaines en aval. Les juges LLM peuvent n’être que marginalement supérieurs au hasard sur des comparaisons centrées sur l’exactitude ou instables sur des sorties longues. Les mélanges de préférences synthétiques peuvent améliorer les benchmarks de capacités générales tout en dégradant le comportement de sécurité sous la pression du jailbreak. La question opérationnelle n’est pas de savoir si les retours de l’IA peuvent remplacer les retours humains. Il s’agit de savoir où les retours de l’IA constituent un signal d’optimisation productif, et où les humains doivent rester ceux qui fixent les objectifs, calibrent, agissent en tant qu’adversaires et mesurent en dernier ressort (RLAIF vs RLHF, JudgeBench, More is Less).
Ce que montre réellement la comparaison directe avec le RLAIF
Le résultat pro-RLAIF le plus défendable reste la comparaison de Google de 2023. Dans cette étude, les humains ont préféré à la fois le RLAIF et le RLHF à la base de référence SFT avec des marges similaires sur le résumé et le dialogue utile, sans différence statistiquement significative entre le RLAIF et le RLHF, et le RLAIF a obtenu un score d’innocuité plus élevé dans la configuration de dialogue inoffensif. Le même article avertit que les domaines à enjeux élevés tels que la médecine, le droit et l’emploi devraient toujours considérer les experts humains formés comme la référence absolue.
Cette limite est importante. L’expérience montre que les préférences générées par l’IA peuvent remplacer une grande partie de la production d’étiquettes de préférences dans certains régimes. Elle ne montre pas que l’évaluation humaine disparaît. Les humains décident toujours si la politique qui en résulte est réellement meilleure.
Les travaux originaux d’Anthropic sur l’IA constitutionnelle (Constitutional AI) soulignent la même chose sous une forme différente. L’IA constitutionnelle réduit le besoin pour les humains d’étiqueter directement chaque sortie nuisible, mais elle condense l’intention humaine dans une constitution écrite : des principes qui guident les autocritiques, les révisions et les classements de préférences générés par l’IA. La mise à jour de la constitution d’Anthropic de 2026 et la fiche système de Claude 4 décrivent des piles d’entraînement et d’évaluation hybrides impliquant des retours humains, l’IA constitutionnelle, des services d’étiquetage de données, des sous-traitants, la sélection de préférences par des travailleurs participatifs, des équipes rouges (red teaming) d’experts, des tests adversariaux, des tests cachés et une surveillance continue (Constitutional AI, Claude’s new constitution, Claude 4 system card).
The real substitution boundary is narrower than 'AI stands in for human feedback.'
| Pipeline family | What humans still supply | What AI feedback can scale | Where it tends to work best | What it does not replace |
|---|---|---|---|---|
| RLHF | Demonstrations, pairwise preferences, rater policy, eval design | Limited assistance in triage or pre-filtering | General instruction-following when latent preference needs direct human grounding | Human objective definition, evaluator calibration, adversarial testing, holdout measurement |
| RLAIF | Task framing, rubric or policy intent, AI-labeler choice, final evaluation | Pairwise rankings, scalar rewards, some direct online rewards, faster iteration | Cases where 'better' can be legibly expressed and a stronger judge is available | Gold-standard evaluation, domain-expert adjudication, unseen edge-case review |
| Constitutional AI | Constitution or principles, policy boundaries, exception handling | Self-critiques, revisions, constitution-guided rankings, synthetic conversations | Safety and refusal style where values can be written down as principles | Whether the constitution is complete, well-prioritized, or robust to adversaries |
| Model-generated critiques | Seed preference data, critique rubrics, quality filters | Natural-language critiques that enrich reward-model or policy training | Data efficiency, critique generation, richer supervision than scalar-only RMs | Robustness to distribution shift without holdouts and human audit |
| Model-graded training and eval | Human-written rubrics, ground-truth grades, hidden tests, grader meta-evals | Cheap repeated scoring during training or large-scale offline eval | Narrow, well-specified tasks with low-noise rubrics | Independent measurement of real-world behavior without human grounding |
RLHF
- What humans still supply
- Demonstrations, pairwise preferences, rater policy, eval design
- What AI feedback can scale
- Limited assistance in triage or pre-filtering
- Where it tends to work best
- General instruction-following when latent preference needs direct human grounding
- What it does not replace
- Human objective definition, evaluator calibration, adversarial testing, holdout measurement
RLAIF
- What humans still supply
- Task framing, rubric or policy intent, AI-labeler choice, final evaluation
- What AI feedback can scale
- Pairwise rankings, scalar rewards, some direct online rewards, faster iteration
- Where it tends to work best
- Cases where 'better' can be legibly expressed and a stronger judge is available
- What it does not replace
- Gold-standard evaluation, domain-expert adjudication, unseen edge-case review
Constitutional AI
- What humans still supply
- Constitution or principles, policy boundaries, exception handling
- What AI feedback can scale
- Self-critiques, revisions, constitution-guided rankings, synthetic conversations
- Where it tends to work best
- Safety and refusal style where values can be written down as principles
- What it does not replace
- Whether the constitution is complete, well-prioritized, or robust to adversaries
Model-generated critiques
- What humans still supply
- Seed preference data, critique rubrics, quality filters
- What AI feedback can scale
- Natural-language critiques that enrich reward-model or policy training
- Where it tends to work best
- Data efficiency, critique generation, richer supervision than scalar-only RMs
- What it does not replace
- Robustness to distribution shift without holdouts and human audit
Model-graded training and eval
- What humans still supply
- Human-written rubrics, ground-truth grades, hidden tests, grader meta-evals
- What AI feedback can scale
- Cheap repeated scoring during training or large-scale offline eval
- Where it tends to work best
- Narrow, well-specified tasks with low-noise rubrics
- What it does not replace
- Independent measurement of real-world behavior without human grounding
OpenTrain synthesis from RLAIF vs RLHF, Constitutional AI, Anthropic public system documentation, and OpenAI grader/RFT documentation.
Pourquoi les retours de l’IA passent à l’échelle
Le post-entraînement moderne bénéficie souvent d’une supervision intermédiaire structurée plutôt que de simples tuples de préférences humaines brutes. UltraFeedback a montré qu’un vaste ensemble de données de retours d’IA pouvait être construit à grande échelle : environ 64,000 invites, quatre complétions par invite, et plus d’un million d’annotations de retours GPT-4 sur 250,000 conversations (UltraFeedback).
Les travaux ultérieurs sont allés au-delà des victoires scalaires par paires. Les méthodes de critique synthétique ont montré que les critiques en langage naturel générées par des modèles peuvent améliorer la robustesse des modèles de récompense et l’efficacité des données. Critic-RM a rapporté des gains de précision de 3.7 à 7.3 points par rapport aux modèles de récompense standards et aux juges LLM en entraînant conjointement la prédiction de récompense et la génération de critiques. La gamme HelpSteer3 de NVIDIA a poussé la même idée dans une direction plus ancrée dans l’humain : les retours humains et les données d’édition entraînent des modèles dédiés aux retours/éditions, tandis que HelpSteer3-Preference ajoute plus de 40,000 échantillons de préférences annotés par des humains dans des contextes STEM, de codage et multilingues (synthetic critiques, Critic-RM, HelpSteer3, HelpSteer3-Preference).
Ces formulations de style Bradley-Terry restent l’abstraction de base derrière de nombreux pipelines de modèles de récompense :
La supervision des préférences est alors souvent ajustée avec une perte de cette forme :
Le point de défaillance pratique n’est généralement pas les mathématiques. Il s’agit de savoir si le jeu de données, la fonction de récompense et la distribution de déploiement en aval reflètent toujours le même objectif une fois que la pression d’optimisation commence (reward model overoptimization, constrained RLHF).
Où les retours de l’IA échouent en premier
La raison centrale pour laquelle le RLAIF ne peut pas servir de couche de mesure humaine est le transfert de référence. L’évaluation par proxy de préférence (PPE) est particulièrement utile ici car elle pose la bonne question : non pas “le modèle de récompense semble-t-il bon hors ligne”, mais “produit-il des modèles post-RLHF plus performants selon les préférences humaines”. PPE rapporte que le RewardBench original pourrait même devenir négativement corrélé avec les préférences humaines post-DPO en aval sur les meilleurs modèles, et que la précision fine sur divers jeux de données de préférences humaines et d’exactitude était plus prédictive des résultats en aval de la Chatbot Arena que les métriques de style corrélation de rang. PPE a lié ces résultats à 12,190 votes humains sur des modèles post-entraînés (How to Evaluate Reward Models for RLHF).
RewardBench 2 doit être lu comme une réponse à cet échec, et non comme une contradiction de celui-ci. RewardBench 2 introduit des invites humaines inédites, une évaluation best-of-4 et six domaines. Il rapporte que les modèles obtiennent un score d’environ 20 points inférieur à celui du RewardBench original tout en obtenant une meilleure corrélation en aval. Mais il est explicite qu’un score de référence élevé n’est qu’un prérequis, et non une condition suffisante pour un bon RLHF, et que le meilleur modèle de récompense pour le RLHF dépend de la configuration d’entraînement et de la lignée du modèle (RewardBench 2).
Les juges LLM montrent le même schéma. JudgeBench a été conçu parce que l’accord sur les préférences humaines seul était une cible trop faible pour les tâches fortement axées sur l’exactitude, et il a révélé que de nombreux modèles de juges performants n’étaient que légèrement supérieurs au hasard sur des paires de réponses difficiles d’exactitude objective. Des travaux distincts sur les biais des juges répertorient le biais de position, le biais de verbosité, l’auto-préférence et d’autres raccourcis. LongJudgeBench étend le problème à l’évaluation en format long, où les rubriques et les références aident mais n’éliminent pas l’instabilité (JudgeBench, judge bias, LongJudgeBench).
Failure modes that make AI feedback a poor measurement anchor.
| Failure mode | Representative evidence | Why AI feedback mispredicts | Mitigation pattern | What remains human-anchored |
|---|---|---|---|---|
| Offline RM benchmark looks good, policy disappoints | PPE vs original RewardBench | Benchmark signal is not tightly linked to post-training human preference | Use unseen prompts, correctness + human-preference mixes, and downstream holdouts | Final human preference measurement |
| Judge prefers style over substance | RM-Bench and judge-bias studies | Style cues, verbosity, position, and self-preference act as shortcuts | Randomize order, run style-control analyses, tighten rubrics | Bias adjudication and meta-eval design |
| Long-form judge instability | LongJudgeBench | Context and protocol complexity exceed judge robustness | Use task-specific rubrics, chunking, references, and human spot checks | Long-form quality judgment |
| Multi-model synthetic preferences weaken safety | More is Less | Model optimizes separable superficial cues rather than robust safety constraints | Use tighter data curation, safety-specific evals, and adversarial jailbreak testing | Safety acceptance criteria |
| Self-critique shifts off-policy | SCOP | Critiques are generated on a distribution no longer matching the current policy | Generate critiques on-policy and use multi-objective rewards | Selection of objectives and failure review |
| RL reward hacking | Claude 4 system card and overoptimization work | Proxy reward can be gamed under optimization pressure | Use hidden tests, monitors, reward constraints, and rapid human review | Detecting and redefining failure cases |
Offline RM benchmark looks good, policy disappoints
- Representative evidence
- PPE vs original RewardBench
- Why AI feedback mispredicts
- Benchmark signal is not tightly linked to post-training human preference
- Mitigation pattern
- Use unseen prompts, correctness + human-preference mixes, and downstream holdouts
- What remains human-anchored
- Final human preference measurement
Judge prefers style over substance
- Representative evidence
- RM-Bench and judge-bias studies
- Why AI feedback mispredicts
- Style cues, verbosity, position, and self-preference act as shortcuts
- Mitigation pattern
- Randomize order, run style-control analyses, tighten rubrics
- What remains human-anchored
- Bias adjudication and meta-eval design
Long-form judge instability
- Representative evidence
- LongJudgeBench
- Why AI feedback mispredicts
- Context and protocol complexity exceed judge robustness
- Mitigation pattern
- Use task-specific rubrics, chunking, references, and human spot checks
- What remains human-anchored
- Long-form quality judgment
Multi-model synthetic preferences weaken safety
- Representative evidence
- More is Less
- Why AI feedback mispredicts
- Model optimizes separable superficial cues rather than robust safety constraints
- Mitigation pattern
- Use tighter data curation, safety-specific evals, and adversarial jailbreak testing
- What remains human-anchored
- Safety acceptance criteria
Self-critique shifts off-policy
- Representative evidence
- SCOP
- Why AI feedback mispredicts
- Critiques are generated on a distribution no longer matching the current policy
- Mitigation pattern
- Generate critiques on-policy and use multi-objective rewards
- What remains human-anchored
- Selection of objectives and failure review
RL reward hacking
- Representative evidence
- Claude 4 system card and overoptimization work
- Why AI feedback mispredicts
- Proxy reward can be gamed under optimization pressure
- Mitigation pattern
- Use hidden tests, monitors, reward constraints, and rapid human review
- What remains human-anchored
- Detecting and redefining failure cases
OpenTrain synthesis from PPE, RM-Bench, JudgeBench, LongJudgeBench, More is Less, SCOP, Anthropic Claude 4, and reward-overoptimization papers.
Deux échecs méritent d’être soulignés car ils passent facilement inaperçus lorsque les équipes célèbrent l’échelle des données synthétiques. Premièrement, une plus grande diversité synthétique peut produire un moins bon alignement de la sécurité. « More is Less » isole la source de données de la méthode d’optimisation et constate que les données de préférence synthétiques multi-modèles améliorent plusieurs benchmarks généraux tout en augmentant les taux de réussite des attaques de jailbreak, tandis que les réponses auto-générées filtrées par un modèle de récompense produisent un ASR matériellement inférieur sur plusieurs familles de modèles. Deuxièmement, les pipelines d’auto-critique dérivent hors politique. SCOP montre que les modèles dans les cycles ultérieurs critiquent le raisonnement des cycles précédents plus efficacement que leurs propres résultats actuels. La solution n’est pas plus d’automatisation dans l’abstrait ; c’est un couplage plus étroit entre l’évaluateur et la distribution d’entraînement réelle, ainsi qu’une évaluation contradictoire et de retenue qui reste externe à la boucle d’optimisation (More is Less, SCOP).
Le contre-exemple le plus fort est lié à une grille d’évaluation
HealthBench est le contre-exemple le plus fort, et donc le plus instructif. Il ne montre pas que les évaluateurs IA remplacent les experts. Il montre les conditions dans lesquelles ils peuvent se rapprocher de la mesure des experts.
HealthBench comprend 5,000 conversations réalistes et 48,562 critères de grille d’évaluation rédigés par des médecins, développés avec 262 médecins dans 60 pays. GPT-4.1 est ensuite utilisé comme évaluateur basé sur un modèle par rapport à ces critères rédigés par des médecins. Sur le sous-ensemble de consensus, GPT-4.1 a dépassé le score MF1 moyen des médecins dans cinq des sept thèmes, s’est situé dans la moitié supérieure des médecins dans six des sept, et est resté au-dessus du tiers inférieur pour tous les thèmes. OpenAI attribue ce succès à une vérité terrain diversifiée et bien annotée, à une méta-évaluation bien conçue, ainsi qu’à une sélection minutieuse des prompts et des évaluateurs (HealthBench, HealthBench paper).
C’est la bonne lecture pour l’évaluation par modèle plus généralement. Les juges IA fonctionnent mieux lorsque les humains ont déjà fait le travail le plus difficile consistant à définir la grille d’évaluation, sélectionner les critères, valider le comportement de l’évaluateur et restreindre le domaine.
Les preuves en production pointent vers des piles d’évaluateurs hybrides
Les déductions tirées de la documentation publique suggèrent que les laboratoires de pointe ont déjà convergé vers des piles d’évaluateurs hybrides. Les documents publics d’Anthropic indiquent que l’entraînement de Claude 4 a utilisé à la fois des retours humains et l’IA constitutionnelle ; sa fiche système décrit des services d’étiquetage de données, des sous-traitants, des travailleurs participatifs pour la sélection des préférences et les tests contradictoires, des ensembles de prompts informés par des experts (SME), des évaluateurs humains pour les jugements en contexte ambigu, du red teaming par des experts, des tests cachés et un programme humain d’intervention rapide pour les piratages de récompense. Les documents publics d’OpenAI sur le fine-tuning par renforcement élèvent les évaluateurs de modèles au rang de composants d’entraînement de premier ordre, mais ils demandent également aux équipes de collecter des notes de vérité terrain fiables auprès d’experts humains et de détecter le piratage des évaluateurs en comparant les scores des évaluateurs de modèles à l’évaluation humaine experte (OpenAI graders, reinforcement fine-tuning).
Pour les équipes qui ne sont pas à la pointe, l’implication est que les retours humains devraient remonter dans la pile, et non en disparaître. Le travail à plus forte valeur ajoutée provient désormais d’humains spécialistes rédigeant ou approuvant des grilles d’évaluation et des constitutions, calibrant les évaluateurs face à des cas difficiles, examinant les désaccords entre juges et politiques, créant des ensembles contradictoires et de retenue, et statuant sur des domaines où l’exactitude est rare, multi-objectifs ou sensible à la sécurité. Les retours de l’IA peuvent ensuite effectuer le travail répétitif intermédiaire : générer des critiques, classer des candidats, étendre la couverture des préférences ou servir d’évaluateur rapide dans la boucle interne.
Des questions ouvertes demeurent. La littérature évolue encore sur la modélisation personnalisée des récompenses, l’évaluation de textes longs, la question de savoir si les modèles de récompense de la même lignée sont importants pour l’entraînement de type PPO, et jusqu’où les modèles spécialisés dans la critique peuvent se généraliser en dehors des domaines initiaux qui les ont entraînés. Mais l’essentiel est stable : RLAIF est mieux compris comme un moyen de mettre à l’échelle la supervision une fois que les humains ont déjà ancré la cible, et non comme un moyen d’éliminer le besoin de cibles ancrées par des humains ou de mesures ancrées par des humains (Personalized RewardBench).
OpenTrain peut trouver des évaluateurs spécialistes et des opérateurs de données de préférence au sein de la pile technologique qu’une équipe utilise déjà. Utilisez la référence DPO vs PPO pour le contexte optimiseur contre mesure, la référence de fiabilité des juges LLM pour l’étalonnage des évaluateurs, le guide de cadrage RLHF pour la planification des données de préférence, et publiez une offre d’emploi lorsque le goulot d’étranglement est le recrutement pour la boucle de révision.
Sources
- RLAIF vs. RLHF: Scaling Reinforcement Learning from Human Feedback with AI Feedback
- Constitutional AI: Harmlessness from AI Feedback
- Claude’s new constitution
- Claude 4 System Card
- UltraFeedback
- Améliorer les modèles de récompense avec des critiques synthétiques
- Les critiques auto-générées améliorent la modélisation de la récompense pour les modèles de langage
- HelpSteer3
- HelpSteer3-Preference
- Comment évaluer les modèles de récompense pour RLHF
- RewardBench 2
- RM-Bench
- JudgeBench
- Justice ou préjugés ? Quantification des biais dans LLM-as-a-Judge
- Évaluation comparative de LLM-as-a-Judge pour l’évaluation des réponses longues
- HealthBench
- Article HealthBench
- Directives d’évaluation d’OpenAI
- Directives de réglage fin par renforcement d’OpenAI
- Plus c’est moins
- Correction des décalages de distribution de l’autocritique des LLM via l’entraînement sur politique
- Lois d’échelle pour la sur-optimisation des modèles de récompense
- Faire face à la sur-optimisation des modèles de récompense avec un RLHF contraint
- RewardBench personnalisé