RLAIF vs RLHF: Was KI-Feedback ersetzen kann und was nicht

Wo KI-Feedback die Post-Training-Supervision skalieren kann und wo menschlich fundierte Ziele, Kalibrierung, Expertenprüfungen und Holdouts unerlässlich bleiben.
RLAIF ersetzt RLHF nicht in dem starken Sinne, den Schlagzeilen implizieren. Mit Stand vom 4. Juni 2026 stützen die stärksten öffentlichen Beweise eine engere und nützlichere Behauptung: KI-Feedback kann oft eine teure mittlere Schicht im Post-Training ersetzen, nämlich die groß angelegte Generierung von Kritiken, die paarweise Präferenzkennzeichnung und einige iterative Schleifen zur Richtlinienverbesserung.
Aber dieselbe Literatur zeigt auch wiederholte Fehlschläge, wenn Teams den synthetischen Evaluator als Ground Truth behandeln. Belohnungsmodelle, die bei statischen Benchmarks gut abschneiden, können bei der Vorhersage nachgelagerter menschlicher Präferenzen versagen. LLM-Richter können bei korrektheitszentrierten Vergleichen nur geringfügig über dem Zufall liegen oder bei langen Ausgaben instabil sein. Synthetische Präferenzmischungen können breite Fähigkeits-Benchmarks verbessern, während sie das Sicherheitsverhalten unter Jailbreak-Druck verschlechtern. Die operative Frage ist nicht, ob KI-Feedback menschliches Feedback ersetzen kann. Sie lautet, wo KI-Feedback ein produktives Optimierungssignal ist und wo Menschen der Zielsetzer, Kalibrator, Gegner und finale Bewerter bleiben müssen (RLAIF vs RLHF, JudgeBench, More is Less).
Was der direkte RLAIF-Vergleich tatsächlich zeigt
Das am besten vertretbare Pro-RLAIF-Ergebnis ist immer noch der Google-Vergleich von 2023. In dieser Studie bevorzugten Menschen sowohl RLAIF als auch RLHF gegenüber der SFT-Baseline mit ähnlichen Margen bei Zusammenfassungen und hilfreichen Dialogen, ohne statistisch signifikanten Unterschied zwischen RLAIF und RLHF, und RLAIF erzielte eine höhere Harmlosigkeit im Harmlos-Dialog-Setup. Dasselbe Papier warnt davor, dass hochriskante Bereiche wie Medizin, Recht und Beschäftigung geschulte menschliche Experten weiterhin als Goldstandard behandeln sollten.
Diese Grenze ist wichtig. Das Experiment zeigt, dass KI-generierte Präferenzen in einigen Systemen einen großen Block der Produktion von Präferenz-Labels ersetzen können. Es zeigt nicht, dass die menschliche Bewertung verschwindet. Menschen entscheiden immer noch, ob die resultierende Richtlinie tatsächlich besser ist.
Anthropics ursprüngliche Arbeit zu Constitutional AI bringt denselben Punkt in einer anderen Form zum Ausdruck. Constitutional AI reduziert die Notwendigkeit für Menschen, jede schädliche Ausgabe direkt zu kennzeichnen, komprimiert jedoch die menschliche Absicht in eine geschriebene Verfassung: Prinzipien, die Selbstkritik, Überarbeitungen und KI-generierte Präferenz-Rankings leiten. Anthropics Verfassungs-Update von 2026 und die Claude 4-Systemkarte beschreiben hybride Trainings- und Evaluierungs-Stacks, die menschliches Feedback, Constitutional AI, Datenkennzeichnungsdienste, Auftragnehmer, Crowd-Worker-Präferenzauswahl, Experten-Red-Teaming, adversarielles Testen, versteckte Tests und fortlaufende Überwachung umfassen (Constitutional AI, Claude’s new constitution, Claude 4 system card).
Die tatsächliche Substitutionsgrenze ist enger als 'KI ersetzt menschliches Feedback'.
| Pipeline-Familie | Was Menschen weiterhin liefern | Was KI-Feedback skalieren kann | Wo es tendenziell am besten funktioniert | Was es nicht ersetzt |
|---|---|---|---|---|
| RLHF | Demonstrationen, paarweise Präferenzen, Rater-Policy, Eval-Design | Begrenzte Hilfe bei Triage oder Vorfilterung | Allgemeine Befolgung von Anweisungen, wenn latente Präferenz direkte menschliche Verankerung braucht | Menschliche Zieldefinition, Evaluator-Kalibrierung, adversarielle Tests, Holdout-Messung |
| RLAIF | Aufgabenrahmung, Rubrik oder Policy-Absicht, Wahl des KI-Labelers, finale Evaluation | Paarweise Rankings, skalare Rewards, einige direkte Online-Rewards, schnellere Iteration | Fälle, in denen 'besser' klar ausdrückbar ist und ein stärkerer Judge verfügbar ist | Goldstandard-Evaluation, Domain-Expertenentscheidung, Review ungesehener Randfälle |
| Constitutional AI | Verfassung oder Prinzipien, Policy-Grenzen, Ausnahmebehandlung | Selbstkritiken, Überarbeitungen, verfassungsgeleitete Rankings, synthetische Gespräche | Sicherheit und Verweigerungsstil, wenn Werte als Prinzipien niedergeschrieben werden können | Ob die Verfassung vollständig, richtig priorisiert oder robust gegen Gegner ist |
| Modellgenerierte Kritiken | Seed-Präferenzdaten, Kritikrubriken, Qualitätsfilter | Natürlichsprachliche Kritiken, die Reward-Modell- oder Policy-Training anreichern | Dateneffizienz, Kritikgenerierung, reichere Supervision als rein skalare RMs | Robustheit gegenüber Distribution Shift ohne Holdouts und menschliches Audit |
| Modellbewertetes Training und Eval | Menschlich geschriebene Rubriken, Ground-Truth-Bewertungen, versteckte Tests, Grader-Meta-Evals | Günstiges wiederholtes Scoring während des Trainings oder großer Offline-Evals | Enge, gut spezifizierte Aufgaben mit rauscharmen Rubriken | Unabhängige Messung realen Verhaltens ohne menschliche Verankerung |
RLHF
- Was Menschen weiterhin liefern
- Demonstrationen, paarweise Präferenzen, Rater-Policy, Eval-Design
- Was KI-Feedback skalieren kann
- Begrenzte Hilfe bei Triage oder Vorfilterung
- Wo es tendenziell am besten funktioniert
- Allgemeine Befolgung von Anweisungen, wenn latente Präferenz direkte menschliche Verankerung braucht
- Was es nicht ersetzt
- Menschliche Zieldefinition, Evaluator-Kalibrierung, adversarielle Tests, Holdout-Messung
RLAIF
- Was Menschen weiterhin liefern
- Aufgabenrahmung, Rubrik oder Policy-Absicht, Wahl des KI-Labelers, finale Evaluation
- Was KI-Feedback skalieren kann
- Paarweise Rankings, skalare Rewards, einige direkte Online-Rewards, schnellere Iteration
- Wo es tendenziell am besten funktioniert
- Fälle, in denen 'besser' klar ausdrückbar ist und ein stärkerer Judge verfügbar ist
- Was es nicht ersetzt
- Goldstandard-Evaluation, Domain-Expertenentscheidung, Review ungesehener Randfälle
Constitutional AI
- Was Menschen weiterhin liefern
- Verfassung oder Prinzipien, Policy-Grenzen, Ausnahmebehandlung
- Was KI-Feedback skalieren kann
- Selbstkritiken, Überarbeitungen, verfassungsgeleitete Rankings, synthetische Gespräche
- Wo es tendenziell am besten funktioniert
- Sicherheit und Verweigerungsstil, wenn Werte als Prinzipien niedergeschrieben werden können
- Was es nicht ersetzt
- Ob die Verfassung vollständig, richtig priorisiert oder robust gegen Gegner ist
Modellgenerierte Kritiken
- Was Menschen weiterhin liefern
- Seed-Präferenzdaten, Kritikrubriken, Qualitätsfilter
- Was KI-Feedback skalieren kann
- Natürlichsprachliche Kritiken, die Reward-Modell- oder Policy-Training anreichern
- Wo es tendenziell am besten funktioniert
- Dateneffizienz, Kritikgenerierung, reichere Supervision als rein skalare RMs
- Was es nicht ersetzt
- Robustheit gegenüber Distribution Shift ohne Holdouts und menschliches Audit
Modellbewertetes Training und Eval
- Was Menschen weiterhin liefern
- Menschlich geschriebene Rubriken, Ground-Truth-Bewertungen, versteckte Tests, Grader-Meta-Evals
- Was KI-Feedback skalieren kann
- Günstiges wiederholtes Scoring während des Trainings oder großer Offline-Evals
- Wo es tendenziell am besten funktioniert
- Enge, gut spezifizierte Aufgaben mit rauscharmen Rubriken
- Was es nicht ersetzt
- Unabhängige Messung realen Verhaltens ohne menschliche Verankerung
OpenTrain-Synthese aus RLAIF vs. RLHF, Constitutional AI, öffentlicher Anthropic-Systemdokumentation und OpenAI-Grader-/RFT-Dokumentation.
Warum KI-Feedback skaliert
Modernes Post-Training profitiert oft von strukturierter Zwischenüberwachung anstelle von reinen menschlichen Präferenz-Tupeln allein. UltraFeedback zeigte, dass ein großer KI-Feedback-Datensatz in großem Maßstab erstellt werden kann: rund 64,000 Prompts, vier Vervollständigungen pro Prompt und mehr als eine Million GPT-4-Feedback-Annotationen über 250,000 Konversationen (UltraFeedback).
Spätere Arbeiten gingen über skalare paarweise Siege hinaus. Methoden der synthetischen Kritik zeigten, dass modellgenerierte natürlichsprachliche Kritiken die Robustheit von Belohnungsmodellen und die Dateneffizienz verbessern können. Critic-RM verzeichnete Genauigkeitssteigerungen von 3.7 bis 7.3 Punkten gegenüber Standard-Belohnungsmodellen und LLM-Judges durch das gemeinsame Training von Belohnungsvorhersage und Kritikgenerierung. Die HelpSteer3-Reihe von NVIDIA trieb dieselbe Idee in eine stärker auf den Menschen ausgerichtete Richtung: Menschliches Feedback und Bearbeitungsdaten trainieren dedizierte Feedback-/Bearbeitungsmodelle, während HelpSteer3-Preference mehr als 40,000 von Menschen annotierte Präferenzbeispiele aus den Bereichen MINT, Programmierung und mehrsprachigen Umgebungen hinzufügt (synthetic critiques, Critic-RM, HelpSteer3, HelpSteer3-Preference).
Diese Formulierungen im Bradley-Terry-Stil bleiben die grundlegende Abstraktion hinter vielen Belohnungsmodell-Pipelines:
Die Präferenzüberwachung wird dann oft mit einer Verlustfunktion dieser Form angepasst:
Der praktische Schwachpunkt ist meist nicht die Mathematik. Es geht darum, ob der Datensatz, die Belohnungsfunktion und die nachgelagerte Bereitstellungsverteilung noch dasselbe Ziel widerspiegeln, sobald der Optimierungsdruck beginnt (reward model overoptimization, constrained RLHF).
Wo KI-Feedback zuerst scheitert
Der Hauptgrund, warum RLAIF nicht als menschliche Messschicht dienen kann, ist der Benchmark-Transfer. Die Preference Proxy Evaluation (PPE) ist hier besonders nützlich, da sie die richtige Frage stellt: nicht „sieht das Belohnungsmodell offline gut aus“, sondern „erzeugt es stärkere Post-RLHF-Modelle unter menschlicher Präferenz“. PPE berichtet, dass das ursprüngliche RewardBench bei Top-Modellen sogar negativ mit der nachgelagerten menschlichen Post-DPO-Präferenz korrelieren könnte und dass eine feingranulare Genauigkeit bei diversen Datensätzen zu menschlichen Präferenzen und Korrektheit eine bessere Vorhersagekraft für nachgelagerte Chatbot-Arena-Ergebnisse bot als Metriken im Stil der Rangkorrelation. PPE verknüpfte diese Ergebnisse mit 12,190 menschlichen Abstimmungen zu nachträglich trainierten Modellen (How to Evaluate Reward Models for RLHF).
RewardBench 2 sollte als Antwort auf dieses Scheitern gelesen werden, nicht als Widerspruch dazu. RewardBench 2 führt ungesehene menschliche Prompts, eine Best-of-4-Evaluierung und sechs Domänen ein. Es wird berichtet, dass Modelle etwa 20 Punkte schlechter abschneiden als beim ursprünglichen RewardBench, während sie eine bessere nachgelagerte Korrelation erreichen. Es wird jedoch ausdrücklich darauf hingewiesen, dass ein hoher Benchmark-Wert nur eine Voraussetzung und keine hinreichende Bedingung für gutes RLHF ist, und dass das beste Belohnungsmodell für RLHF vom Trainings-Setup und der Modellabstammung abhängt (RewardBench 2).
LLM-Judges zeigen dasselbe Muster. JudgeBench wurde entwickelt, weil die Übereinstimmung mit menschlichen Präferenzen allein ein zu schwaches Ziel für korrektheitslastige Aufgaben war, und es stellte sich heraus, dass viele starke Judge-Modelle bei schwierigen Antwortpaaren zur objektiven Korrektheit nur knapp über dem Zufall lagen. Separate Arbeiten zum Judge-Bias katalogisieren Positions-Bias, Verbositäts-Bias, Selbstpräferenz und andere Abkürzungen. LongJudgeBench weitet das Problem auf die Langform-Evaluierung aus, bei der Rubriken und Referenzen zwar helfen, die Instabilität aber nicht beseitigen (JudgeBench, judge bias, LongJudgeBench).
Fehlermuster, die KI-Feedback zu einem schwachen Messanker machen.
| Fehlermodus | Repräsentative Evidenz | Warum KI-Feedback falsch vorhersagt | Minderungsmuster | Was menschlich verankert bleibt |
|---|---|---|---|---|
| Offline-RM-Benchmark sieht gut aus, Policy enttäuscht | PPE vs. ursprüngliches RewardBench | Benchmark-Signal ist nicht eng mit menschlicher Post-Training-Präferenz verknüpft | Ungesehene Prompts, Korrektheits- und Präferenzmischungen sowie nachgelagerte Holdouts nutzen | Finale Messung menschlicher Präferenz |
| Judge bevorzugt Stil statt Substanz | RM-Bench und Studien zu Judge-Bias | Stilsignale, Verbosität, Position und Selbstpräferenz wirken als Abkürzungen | Reihenfolge randomisieren, Stilkontrollen durchführen, Rubriken schärfen | Bias-Entscheidung und Meta-Eval-Design |
| Instabilität bei Langform-Judges | LongJudgeBench | Kontext- und Protokollkomplexität übersteigen die Robustheit des Judges | Aufgabenspezifische Rubriken, Chunking, Referenzen und menschliche Stichproben nutzen | Qualitätsurteil für Langform-Ausgaben |
| Synthetische Präferenzen aus mehreren Modellen schwächen Sicherheit | More is Less | Das Modell optimiert trennbare oberflächliche Signale statt robuster Sicherheitsbedingungen | Datensatzkuratierung schärfen, sicherheitsspezifische Evals und adversarielle Jailbreak-Tests nutzen | Akzeptanzkriterien für Sicherheit |
| Selbstkritik driftet off-policy | SCOP | Kritiken entstehen auf einer Verteilung, die nicht mehr zur aktuellen Policy passt | Kritiken on-policy erzeugen und multiobjektive Rewards nutzen | Auswahl der Ziele und Review von Fehlerfällen |
| Reward Hacking im RL | Claude 4-Systemkarte und Arbeiten zur Überoptimierung | Proxy-Rewards können unter Optimierungsdruck ausgenutzt werden | Versteckte Tests, Monitore, Reward-Beschränkungen und schnelle menschliche Reviews nutzen | Fehlerfälle erkennen und neu definieren |
Offline-RM-Benchmark sieht gut aus, Policy enttäuscht
- Repräsentative Evidenz
- PPE vs. ursprüngliches RewardBench
- Warum KI-Feedback falsch vorhersagt
- Benchmark-Signal ist nicht eng mit menschlicher Post-Training-Präferenz verknüpft
- Minderungsmuster
- Ungesehene Prompts, Korrektheits- und Präferenzmischungen sowie nachgelagerte Holdouts nutzen
- Was menschlich verankert bleibt
- Finale Messung menschlicher Präferenz
Judge bevorzugt Stil statt Substanz
- Repräsentative Evidenz
- RM-Bench und Studien zu Judge-Bias
- Warum KI-Feedback falsch vorhersagt
- Stilsignale, Verbosität, Position und Selbstpräferenz wirken als Abkürzungen
- Minderungsmuster
- Reihenfolge randomisieren, Stilkontrollen durchführen, Rubriken schärfen
- Was menschlich verankert bleibt
- Bias-Entscheidung und Meta-Eval-Design
Instabilität bei Langform-Judges
- Repräsentative Evidenz
- LongJudgeBench
- Warum KI-Feedback falsch vorhersagt
- Kontext- und Protokollkomplexität übersteigen die Robustheit des Judges
- Minderungsmuster
- Aufgabenspezifische Rubriken, Chunking, Referenzen und menschliche Stichproben nutzen
- Was menschlich verankert bleibt
- Qualitätsurteil für Langform-Ausgaben
Synthetische Präferenzen aus mehreren Modellen schwächen Sicherheit
- Repräsentative Evidenz
- More is Less
- Warum KI-Feedback falsch vorhersagt
- Das Modell optimiert trennbare oberflächliche Signale statt robuster Sicherheitsbedingungen
- Minderungsmuster
- Datensatzkuratierung schärfen, sicherheitsspezifische Evals und adversarielle Jailbreak-Tests nutzen
- Was menschlich verankert bleibt
- Akzeptanzkriterien für Sicherheit
Selbstkritik driftet off-policy
- Repräsentative Evidenz
- SCOP
- Warum KI-Feedback falsch vorhersagt
- Kritiken entstehen auf einer Verteilung, die nicht mehr zur aktuellen Policy passt
- Minderungsmuster
- Kritiken on-policy erzeugen und multiobjektive Rewards nutzen
- Was menschlich verankert bleibt
- Auswahl der Ziele und Review von Fehlerfällen
Reward Hacking im RL
- Repräsentative Evidenz
- Claude 4-Systemkarte und Arbeiten zur Überoptimierung
- Warum KI-Feedback falsch vorhersagt
- Proxy-Rewards können unter Optimierungsdruck ausgenutzt werden
- Minderungsmuster
- Versteckte Tests, Monitore, Reward-Beschränkungen und schnelle menschliche Reviews nutzen
- Was menschlich verankert bleibt
- Fehlerfälle erkennen und neu definieren
OpenTrain-Synthese aus PPE, RM-Bench, JudgeBench, LongJudgeBench, More is Less, SCOP, Anthropic Claude 4 und Arbeiten zur Reward-Überoptimierung.
Zwei Fehlschläge verdienen besondere Betonung, weil sie leicht übersehen werden, wenn Teams die Skalierung synthetischer Daten feiern. Erstens kann mehr synthetische Vielfalt zu schlechterer Sicherheitsausrichtung führen. “More is Less” trennt die Datenquelle vom Optimierungsverfahren und zeigt, dass synthetische Präferenzdaten aus mehreren Modellen mehrere allgemeine Benchmarks verbessern, während sie zugleich die Erfolgsraten von Jailbreak-Angriffen erhöhen; selbstgenerierte Antworten, die durch ein Reward-Modell gefiltert werden, erzeugen dagegen über mehrere Modellfamilien hinweg eine deutlich niedrigere ASR. Zweitens driften Selbstkritik-Pipelines off-policy. SCOP zeigt, dass Modelle in späteren Runden die Begründungen früherer Runden wirksamer kritisieren als ihre eigenen aktuellen Ausgaben. Die Lösung ist nicht abstrakt mehr Automatisierung, sondern eine engere Kopplung zwischen Evaluator und tatsächlicher Trainingsverteilung plus adversarielle und Holdout-Evaluierung, die außerhalb der Optimierungsschleife bleibt (More is Less, SCOP).
Das stärkste Gegenbeispiel ist an Rubriken gebunden
HealthBench ist das stärkste Gegenbeispiel und deshalb das lehrreichste. Es zeigt nicht, dass KI-Grader Experten ersetzen. Es zeigt die Bedingungen, unter denen sie sich einer Expertenmessung annähern können.
HealthBench umfasst 5,000 realistische Gespräche und 48,562 von Ärztinnen und Ärzten geschriebene Rubrikkriterien, entwickelt mit 262 Ärztinnen und Ärzten in 60 Ländern. GPT-4.1 wird anschließend als modellbasierter Grader gegen diese ärztlich geschriebenen Kriterien eingesetzt. Im Konsens-Subset übertraf GPT-4.1 den durchschnittlichen MF1-Wert der Ärzte in fünf von sieben Themen, lag in sechs von sieben Themen in der oberen Hälfte der Ärzte und blieb in allen Themen oberhalb des unteren Drittels. OpenAI führt diesen Erfolg auf vielfältige und gut annotierte Ground Truth, gut konzipierte Meta-Evaluierung sowie sorgfältige Prompt- und Grader-Auswahl zurück (HealthBench, HealthBench paper).
Das ist die richtige Lesart für Modell-Grading im Allgemeinen. KI-Judges funktionieren am besten, wenn Menschen die schwierigere Arbeit bereits erledigt haben: die Rubrik definieren, Kriterien auswählen, das Verhalten des Graders validieren und die Domäne begrenzen.
Produktionsevidenz spricht für hybride Evaluator-Stacks
Aus öffentlichen Unterlagen lässt sich ableiten, dass Frontier-Labs bereits bei hybriden Evaluator-Stacks angekommen sind. Anthropics öffentliche Materialien sagen, dass das Training von Claude 4 sowohl menschliches Feedback als auch Constitutional AI nutzte; die Systemkarte beschreibt Datenlabeling-Dienste, Auftragnehmer, Crowd-Worker für Präferenzauswahl und adversarielles Testen, von Fachexperten informierte Prompt-Sets, menschliche Rater für Urteile in mehrdeutigen Kontexten, Experten-Red-Teaming, versteckte Tests und ein menschliches Schnellreaktionsprogramm für Reward Hacks. OpenAIs öffentliche Dokumentation zu Reinforcement Fine-Tuning macht Modell-Grader zu Trainingskomponenten erster Ordnung, weist Teams aber zugleich an, verlässliche Ground-Truth-Bewertungen von menschlichen Experten zu sammeln und Grader-Hacking zu erkennen, indem Modell-Grader-Werte mit menschlicher Expertenbewertung verglichen werden (OpenAI graders, reinforcement fine-tuning).
Für Teams außerhalb der Frontier-Labs bedeutet das: Menschliches Feedback sollte im Stack nach oben wandern, nicht daraus verschwinden. Die wertvollste Arbeit kommt jetzt von spezialisierten Menschen, die Rubriken und Verfassungen schreiben oder freigeben, Evaluatoren an schwierigen Fällen kalibrieren, Uneinigkeit zwischen Judge und Policy prüfen, adversarielle und Holdout-Sets erstellen und Domänen beurteilen, in denen Korrektheit spärlich, multiobjektiv oder sicherheitssensibel ist. KI-Feedback kann dann die repetitive Arbeit dazwischen übernehmen: Kritiken generieren, Kandidaten ranken, Präferenzabdeckung erweitern oder als schneller Inner-Loop-Grader dienen.
Es bleiben offene Fragen. Die Fachliteratur entwickelt sich noch weiter bei Themen wie personalisierter Reward-Modellierung, Long-Form Judging, der Frage, ob Reward-Modelle derselben Abstammung für PPO-ähnliches Training wichtig sind, und wie weit kritikspezialisierte Modelle über die Seed-Domänen hinaus generalisieren können, mit denen sie trainiert wurden. Aber der Kern bleibt stabil: RLAIF versteht man am besten als eine Methode zur Skalierung der Supervision, sobald Menschen das Ziel bereits verankert haben, und nicht als eine Möglichkeit, den Bedarf an menschlich verankerten Zielen oder menschlich verankerten Messungen zu beseitigen (Personalized RewardBench).
OpenTrain kann spezialisierte Evaluatoren und Operatoren für Präferenzdaten innerhalb des Stacks vermitteln, den ein Team bereits nutzt. Nutzen Sie die DPO vs. PPO-Referenz für den Kontext von Optimierer versus Messung, die LLM Judge-Zuverlässigkeitsreferenz für die Evaluatoren-Kalibrierung, den RLHF Scoping-Leitfaden für die Planung von Präferenzdaten und veröffentlichen Sie einen Job, wenn der Engpass in der personellen Besetzung der Review-Schleife liegt.
Quellen
- RLAIF vs. RLHF: Scaling Reinforcement Learning from Human Feedback with AI Feedback
- Constitutional AI: Harmlessness from AI Feedback
- Claude’s new constitution
- Claude 4 System Card
- UltraFeedback
- Verbesserung von Belohnungsmodellen mit synthetischen Kritiken
- Selbst generierte Kritiken verbessern die Belohnungsmodellierung für Sprachmodelle
- HelpSteer3
- HelpSteer3-Preference
- Wie man Belohnungsmodelle für RLHF evaluiert
- RewardBench 2
- RM-Bench
- JudgeBench
- Justice or Prejudice? Quantifying Biases in LLM-as-a-Judge
- Benchmarking LLM-as-a-Judge for Long-Form Output Evaluation
- HealthBench
- HealthBench-Paper
- OpenAI-Leitfaden für Grader
- OpenAI-Leitfaden für Reinforcement Fine-Tuning
- More is Less
- Fixing Distribution Shifts of LLM Self-Critique via On-Policy Training
- Scaling Laws for Reward Model Overoptimization
- Confronting Reward Model Overoptimization with Constrained RLHF
- Personalized RewardBench