RLAIF vs RLHF: Was KI-Feedback ersetzen kann und was nicht

RLAIF ersetzt RLHF nicht in dem starken Sinne, den Schlagzeilen implizieren. Mit Stand vom 4. Juni 2026 stützen die stärksten öffentlichen Beweise eine engere und nützlichere Behauptung: KI-Feedback kann oft eine teure mittlere Schicht im Post-Training ersetzen, nämlich die groß angelegte Generierung von Kritiken, die paarweise Präferenzkennzeichnung und einige iterative Schleifen zur Richtlinienverbesserung.

Aber dieselbe Literatur zeigt auch wiederholte Fehlschläge, wenn Teams den synthetischen Evaluator als Ground Truth behandeln. Belohnungsmodelle, die bei statischen Benchmarks gut abschneiden, können bei der Vorhersage nachgelagerter menschlicher Präferenzen versagen. LLM-Richter können bei korrektheitszentrierten Vergleichen nur geringfügig über dem Zufall liegen oder bei langen Ausgaben instabil sein. Synthetische Präferenzmischungen können breite Fähigkeits-Benchmarks verbessern, während sie das Sicherheitsverhalten unter Jailbreak-Druck verschlechtern. Die operative Frage ist nicht, ob KI-Feedback menschliches Feedback ersetzen kann. Sie lautet, wo KI-Feedback ein produktives Optimierungssignal ist und wo Menschen der Zielsetzer, Kalibrator, Gegner und finale Bewerter bleiben müssen (RLAIF vs RLHF, JudgeBench, More is Less).

Was der direkte RLAIF-Vergleich tatsächlich zeigt

Das am besten vertretbare Pro-RLAIF-Ergebnis ist immer noch der Google-Vergleich von 2023. In dieser Studie bevorzugten Menschen sowohl RLAIF als auch RLHF gegenüber der SFT-Baseline mit ähnlichen Margen bei Zusammenfassungen und hilfreichen Dialogen, ohne statistisch signifikanten Unterschied zwischen RLAIF und RLHF, und RLAIF erzielte eine höhere Harmlosigkeit im Harmlos-Dialog-Setup. Dasselbe Papier warnt davor, dass hochriskante Bereiche wie Medizin, Recht und Beschäftigung geschulte menschliche Experten weiterhin als Goldstandard behandeln sollten.

Diese Grenze ist wichtig. Das Experiment zeigt, dass KI-generierte Präferenzen in einigen Systemen einen großen Block der Produktion von Präferenz-Labels ersetzen können. Es zeigt nicht, dass die menschliche Bewertung verschwindet. Menschen entscheiden immer noch, ob die resultierende Richtlinie tatsächlich besser ist.

Anthropics ursprüngliche Arbeit zu Constitutional AI bringt denselben Punkt in einer anderen Form zum Ausdruck. Constitutional AI reduziert die Notwendigkeit für Menschen, jede schädliche Ausgabe direkt zu kennzeichnen, komprimiert jedoch die menschliche Absicht in eine geschriebene Verfassung: Prinzipien, die Selbstkritik, Überarbeitungen und KI-generierte Präferenz-Rankings leiten. Anthropics Verfassungs-Update von 2026 und die Claude 4-Systemkarte beschreiben hybride Trainings- und Evaluierungs-Stacks, die menschliches Feedback, Constitutional AI, Datenkennzeichnungsdienste, Auftragnehmer, Crowd-Worker-Präferenzauswahl, Experten-Red-Teaming, adversarielles Testen, versteckte Tests und fortlaufende Überwachung umfassen (Constitutional AI, Claude’s new constitution, Claude 4 system card).

Die tatsächliche Substitutionsgrenze ist enger als 'KI ersetzt menschliches Feedback'.

Pipeline-Familie	Was Menschen weiterhin liefern	Was KI-Feedback skalieren kann	Wo es tendenziell am besten funktioniert	Was es nicht ersetzt
RLHF	Demonstrationen, paarweise Präferenzen, Rater-Policy, Eval-Design	Begrenzte Hilfe bei Triage oder Vorfilterung	Allgemeine Befolgung von Anweisungen, wenn latente Präferenz direkte menschliche Verankerung braucht	Menschliche Zieldefinition, Evaluator-Kalibrierung, adversarielle Tests, Holdout-Messung
RLAIF	Aufgabenrahmung, Rubrik oder Policy-Absicht, Wahl des KI-Labelers, finale Evaluation	Paarweise Rankings, skalare Rewards, einige direkte Online-Rewards, schnellere Iteration	Fälle, in denen 'besser' klar ausdrückbar ist und ein stärkerer Judge verfügbar ist	Goldstandard-Evaluation, Domain-Expertenentscheidung, Review ungesehener Randfälle
Constitutional AI	Verfassung oder Prinzipien, Policy-Grenzen, Ausnahmebehandlung	Selbstkritiken, Überarbeitungen, verfassungsgeleitete Rankings, synthetische Gespräche	Sicherheit und Verweigerungsstil, wenn Werte als Prinzipien niedergeschrieben werden können	Ob die Verfassung vollständig, richtig priorisiert oder robust gegen Gegner ist
Modellgenerierte Kritiken	Seed-Präferenzdaten, Kritikrubriken, Qualitätsfilter	Natürlichsprachliche Kritiken, die Reward-Modell- oder Policy-Training anreichern	Dateneffizienz, Kritikgenerierung, reichere Supervision als rein skalare RMs	Robustheit gegenüber Distribution Shift ohne Holdouts und menschliches Audit
Modellbewertetes Training und Eval	Menschlich geschriebene Rubriken, Ground-Truth-Bewertungen, versteckte Tests, Grader-Meta-Evals	Günstiges wiederholtes Scoring während des Trainings oder großer Offline-Evals	Enge, gut spezifizierte Aufgaben mit rauscharmen Rubriken	Unabhängige Messung realen Verhaltens ohne menschliche Verankerung

RLHF

Was Menschen weiterhin liefern: Demonstrationen, paarweise Präferenzen, Rater-Policy, Eval-Design
Was KI-Feedback skalieren kann: Begrenzte Hilfe bei Triage oder Vorfilterung
Wo es tendenziell am besten funktioniert: Allgemeine Befolgung von Anweisungen, wenn latente Präferenz direkte menschliche Verankerung braucht
Was es nicht ersetzt: Menschliche Zieldefinition, Evaluator-Kalibrierung, adversarielle Tests, Holdout-Messung

RLAIF

Was Menschen weiterhin liefern: Aufgabenrahmung, Rubrik oder Policy-Absicht, Wahl des KI-Labelers, finale Evaluation
Was KI-Feedback skalieren kann: Paarweise Rankings, skalare Rewards, einige direkte Online-Rewards, schnellere Iteration
Wo es tendenziell am besten funktioniert: Fälle, in denen 'besser' klar ausdrückbar ist und ein stärkerer Judge verfügbar ist
Was es nicht ersetzt: Goldstandard-Evaluation, Domain-Expertenentscheidung, Review ungesehener Randfälle

Constitutional AI

Was Menschen weiterhin liefern: Verfassung oder Prinzipien, Policy-Grenzen, Ausnahmebehandlung
Was KI-Feedback skalieren kann: Selbstkritiken, Überarbeitungen, verfassungsgeleitete Rankings, synthetische Gespräche
Wo es tendenziell am besten funktioniert: Sicherheit und Verweigerungsstil, wenn Werte als Prinzipien niedergeschrieben werden können
Was es nicht ersetzt: Ob die Verfassung vollständig, richtig priorisiert oder robust gegen Gegner ist

Modellgenerierte Kritiken

Was Menschen weiterhin liefern: Seed-Präferenzdaten, Kritikrubriken, Qualitätsfilter
Was KI-Feedback skalieren kann: Natürlichsprachliche Kritiken, die Reward-Modell- oder Policy-Training anreichern
Wo es tendenziell am besten funktioniert: Dateneffizienz, Kritikgenerierung, reichere Supervision als rein skalare RMs
Was es nicht ersetzt: Robustheit gegenüber Distribution Shift ohne Holdouts und menschliches Audit

Modellbewertetes Training und Eval

Was Menschen weiterhin liefern: Menschlich geschriebene Rubriken, Ground-Truth-Bewertungen, versteckte Tests, Grader-Meta-Evals
Was KI-Feedback skalieren kann: Günstiges wiederholtes Scoring während des Trainings oder großer Offline-Evals
Wo es tendenziell am besten funktioniert: Enge, gut spezifizierte Aufgaben mit rauscharmen Rubriken
Was es nicht ersetzt: Unabhängige Messung realen Verhaltens ohne menschliche Verankerung

OpenTrain-Synthese aus RLAIF vs. RLHF, Constitutional AI, öffentlicher Anthropic-Systemdokumentation und OpenAI-Grader-/RFT-Dokumentation.

Warum KI-Feedback skaliert

Modernes Post-Training profitiert oft von strukturierter Zwischenüberwachung anstelle von reinen menschlichen Präferenz-Tupeln allein. UltraFeedback zeigte, dass ein großer KI-Feedback-Datensatz in großem Maßstab erstellt werden kann: rund 64,000 Prompts, vier Vervollständigungen pro Prompt und mehr als eine Million GPT-4-Feedback-Annotationen über 250,000 Konversationen (UltraFeedback).

Spätere Arbeiten gingen über skalare paarweise Siege hinaus. Methoden der synthetischen Kritik zeigten, dass modellgenerierte natürlichsprachliche Kritiken die Robustheit von Belohnungsmodellen und die Dateneffizienz verbessern können. Critic-RM verzeichnete Genauigkeitssteigerungen von 3.7 bis 7.3 Punkten gegenüber Standard-Belohnungsmodellen und LLM-Judges durch das gemeinsame Training von Belohnungsvorhersage und Kritikgenerierung. Die HelpSteer3-Reihe von NVIDIA trieb dieselbe Idee in eine stärker auf den Menschen ausgerichtete Richtung: Menschliches Feedback und Bearbeitungsdaten trainieren dedizierte Feedback-/Bearbeitungsmodelle, während HelpSteer3-Preference mehr als 40,000 von Menschen annotierte Präferenzbeispiele aus den Bereichen MINT, Programmierung und mehrsprachigen Umgebungen hinzufügt (synthetic critiques, Critic-RM, HelpSteer3, HelpSteer3-Preference).

Diese Formulierungen im Bradley-Terry-Stil bleiben die grundlegende Abstraktion hinter vielen Belohnungsmodell-Pipelines:

p_\theta(y_w \succ y_l \mid x)=\frac{\exp(r_\theta(x,y_w))}{\exp(r_\theta(x,y_w))+\exp(r_\theta(x,y_l))}

Das Modell schätzt die Wahrscheinlichkeit, dass eine gewählte Antwort unter einem gelernten Proxy-Reward eine abgelehnte Antwort schlagen sollte.

Die Präferenzüberwachung wird dann oft mit einer Verlustfunktion dieser Form angepasst:

\mathcal{L}(\theta,D)=\mathbb{E}_{(x,y_w,y_l)\sim D}\left[\log\left(1+\exp\left(r_\theta(x,y_l)-r_\theta(x,y_w)\right)\right)\right]

Die Qualität des Präferenzlernens wird downstream durch Qualität und Repräsentativität des Datensatzes begrenzt, nicht nur durch den Optimierer.

Der praktische Schwachpunkt ist meist nicht die Mathematik. Es geht darum, ob der Datensatz, die Belohnungsfunktion und die nachgelagerte Bereitstellungsverteilung noch dasselbe Ziel widerspiegeln, sobald der Optimierungsdruck beginnt (reward model overoptimization, constrained RLHF).

Wo KI-Feedback zuerst scheitert

Der Hauptgrund, warum RLAIF nicht als menschliche Messschicht dienen kann, ist der Benchmark-Transfer. Die Preference Proxy Evaluation (PPE) ist hier besonders nützlich, da sie die richtige Frage stellt: nicht „sieht das Belohnungsmodell offline gut aus“, sondern „erzeugt es stärkere Post-RLHF-Modelle unter menschlicher Präferenz“. PPE berichtet, dass das ursprüngliche RewardBench bei Top-Modellen sogar negativ mit der nachgelagerten menschlichen Post-DPO-Präferenz korrelieren könnte und dass eine feingranulare Genauigkeit bei diversen Datensätzen zu menschlichen Präferenzen und Korrektheit eine bessere Vorhersagekraft für nachgelagerte Chatbot-Arena-Ergebnisse bot als Metriken im Stil der Rangkorrelation. PPE verknüpfte diese Ergebnisse mit 12,190 menschlichen Abstimmungen zu nachträglich trainierten Modellen (How to Evaluate Reward Models for RLHF).

RewardBench 2 sollte als Antwort auf dieses Scheitern gelesen werden, nicht als Widerspruch dazu. RewardBench 2 führt ungesehene menschliche Prompts, eine Best-of-4-Evaluierung und sechs Domänen ein. Es wird berichtet, dass Modelle etwa 20 Punkte schlechter abschneiden als beim ursprünglichen RewardBench, während sie eine bessere nachgelagerte Korrelation erreichen. Es wird jedoch ausdrücklich darauf hingewiesen, dass ein hoher Benchmark-Wert nur eine Voraussetzung und keine hinreichende Bedingung für gutes RLHF ist, und dass das beste Belohnungsmodell für RLHF vom Trainings-Setup und der Modellabstammung abhängt (RewardBench 2).

LLM-Judges zeigen dasselbe Muster. JudgeBench wurde entwickelt, weil die Übereinstimmung mit menschlichen Präferenzen allein ein zu schwaches Ziel für korrektheitslastige Aufgaben war, und es stellte sich heraus, dass viele starke Judge-Modelle bei schwierigen Antwortpaaren zur objektiven Korrektheit nur knapp über dem Zufall lagen. Separate Arbeiten zum Judge-Bias katalogisieren Positions-Bias, Verbositäts-Bias, Selbstpräferenz und andere Abkürzungen. LongJudgeBench weitet das Problem auf die Langform-Evaluierung aus, bei der Rubriken und Referenzen zwar helfen, die Instabilität aber nicht beseitigen (JudgeBench, judge bias, LongJudgeBench).

Fehlermuster, die KI-Feedback zu einem schwachen Messanker machen.

Fehlermodus	Repräsentative Evidenz	Warum KI-Feedback falsch vorhersagt	Minderungsmuster	Was menschlich verankert bleibt
Offline-RM-Benchmark sieht gut aus, Policy enttäuscht	PPE vs. ursprüngliches RewardBench	Benchmark-Signal ist nicht eng mit menschlicher Post-Training-Präferenz verknüpft	Ungesehene Prompts, Korrektheits- und Präferenzmischungen sowie nachgelagerte Holdouts nutzen	Finale Messung menschlicher Präferenz
Judge bevorzugt Stil statt Substanz	RM-Bench und Studien zu Judge-Bias	Stilsignale, Verbosität, Position und Selbstpräferenz wirken als Abkürzungen	Reihenfolge randomisieren, Stilkontrollen durchführen, Rubriken schärfen	Bias-Entscheidung und Meta-Eval-Design
Instabilität bei Langform-Judges	LongJudgeBench	Kontext- und Protokollkomplexität übersteigen die Robustheit des Judges	Aufgabenspezifische Rubriken, Chunking, Referenzen und menschliche Stichproben nutzen	Qualitätsurteil für Langform-Ausgaben
Synthetische Präferenzen aus mehreren Modellen schwächen Sicherheit	More is Less	Das Modell optimiert trennbare oberflächliche Signale statt robuster Sicherheitsbedingungen	Datensatzkuratierung schärfen, sicherheitsspezifische Evals und adversarielle Jailbreak-Tests nutzen	Akzeptanzkriterien für Sicherheit
Selbstkritik driftet off-policy	SCOP	Kritiken entstehen auf einer Verteilung, die nicht mehr zur aktuellen Policy passt	Kritiken on-policy erzeugen und multiobjektive Rewards nutzen	Auswahl der Ziele und Review von Fehlerfällen
Reward Hacking im RL	Claude 4-Systemkarte und Arbeiten zur Überoptimierung	Proxy-Rewards können unter Optimierungsdruck ausgenutzt werden	Versteckte Tests, Monitore, Reward-Beschränkungen und schnelle menschliche Reviews nutzen	Fehlerfälle erkennen und neu definieren

Offline-RM-Benchmark sieht gut aus, Policy enttäuscht

Repräsentative Evidenz: PPE vs. ursprüngliches RewardBench
Warum KI-Feedback falsch vorhersagt: Benchmark-Signal ist nicht eng mit menschlicher Post-Training-Präferenz verknüpft
Minderungsmuster: Ungesehene Prompts, Korrektheits- und Präferenzmischungen sowie nachgelagerte Holdouts nutzen
Was menschlich verankert bleibt: Finale Messung menschlicher Präferenz

Judge bevorzugt Stil statt Substanz

Repräsentative Evidenz: RM-Bench und Studien zu Judge-Bias
Warum KI-Feedback falsch vorhersagt: Stilsignale, Verbosität, Position und Selbstpräferenz wirken als Abkürzungen
Minderungsmuster: Reihenfolge randomisieren, Stilkontrollen durchführen, Rubriken schärfen
Was menschlich verankert bleibt: Bias-Entscheidung und Meta-Eval-Design

Instabilität bei Langform-Judges

Repräsentative Evidenz: LongJudgeBench
Warum KI-Feedback falsch vorhersagt: Kontext- und Protokollkomplexität übersteigen die Robustheit des Judges
Minderungsmuster: Aufgabenspezifische Rubriken, Chunking, Referenzen und menschliche Stichproben nutzen
Was menschlich verankert bleibt: Qualitätsurteil für Langform-Ausgaben

Synthetische Präferenzen aus mehreren Modellen schwächen Sicherheit

Repräsentative Evidenz: More is Less
Warum KI-Feedback falsch vorhersagt: Das Modell optimiert trennbare oberflächliche Signale statt robuster Sicherheitsbedingungen
Minderungsmuster: Datensatzkuratierung schärfen, sicherheitsspezifische Evals und adversarielle Jailbreak-Tests nutzen
Was menschlich verankert bleibt: Akzeptanzkriterien für Sicherheit

Selbstkritik driftet off-policy

Repräsentative Evidenz: SCOP
Warum KI-Feedback falsch vorhersagt: Kritiken entstehen auf einer Verteilung, die nicht mehr zur aktuellen Policy passt
Minderungsmuster: Kritiken on-policy erzeugen und multiobjektive Rewards nutzen
Was menschlich verankert bleibt: Auswahl der Ziele und Review von Fehlerfällen

Reward Hacking im RL

Repräsentative Evidenz: Claude 4-Systemkarte und Arbeiten zur Überoptimierung
Warum KI-Feedback falsch vorhersagt: Proxy-Rewards können unter Optimierungsdruck ausgenutzt werden
Minderungsmuster: Versteckte Tests, Monitore, Reward-Beschränkungen und schnelle menschliche Reviews nutzen
Was menschlich verankert bleibt: Fehlerfälle erkennen und neu definieren

OpenTrain-Synthese aus PPE, RM-Bench, JudgeBench, LongJudgeBench, More is Less, SCOP, Anthropic Claude 4 und Arbeiten zur Reward-Überoptimierung.

Zwei Fehlschläge verdienen besondere Betonung, weil sie leicht übersehen werden, wenn Teams die Skalierung synthetischer Daten feiern. Erstens kann mehr synthetische Vielfalt zu schlechterer Sicherheitsausrichtung führen. “More is Less” trennt die Datenquelle vom Optimierungsverfahren und zeigt, dass synthetische Präferenzdaten aus mehreren Modellen mehrere allgemeine Benchmarks verbessern, während sie zugleich die Erfolgsraten von Jailbreak-Angriffen erhöhen; selbstgenerierte Antworten, die durch ein Reward-Modell gefiltert werden, erzeugen dagegen über mehrere Modellfamilien hinweg eine deutlich niedrigere ASR. Zweitens driften Selbstkritik-Pipelines off-policy. SCOP zeigt, dass Modelle in späteren Runden die Begründungen früherer Runden wirksamer kritisieren als ihre eigenen aktuellen Ausgaben. Die Lösung ist nicht abstrakt mehr Automatisierung, sondern eine engere Kopplung zwischen Evaluator und tatsächlicher Trainingsverteilung plus adversarielle und Holdout-Evaluierung, die außerhalb der Optimierungsschleife bleibt (More is Less, SCOP).

Das stärkste Gegenbeispiel ist an Rubriken gebunden

HealthBench ist das stärkste Gegenbeispiel und deshalb das lehrreichste. Es zeigt nicht, dass KI-Grader Experten ersetzen. Es zeigt die Bedingungen, unter denen sie sich einer Expertenmessung annähern können.

HealthBench umfasst 5,000 realistische Gespräche und 48,562 von Ärztinnen und Ärzten geschriebene Rubrikkriterien, entwickelt mit 262 Ärztinnen und Ärzten in 60 Ländern. GPT-4.1 wird anschließend als modellbasierter Grader gegen diese ärztlich geschriebenen Kriterien eingesetzt. Im Konsens-Subset übertraf GPT-4.1 den durchschnittlichen MF1-Wert der Ärzte in fünf von sieben Themen, lag in sechs von sieben Themen in der oberen Hälfte der Ärzte und blieb in allen Themen oberhalb des unteren Drittels. OpenAI führt diesen Erfolg auf vielfältige und gut annotierte Ground Truth, gut konzipierte Meta-Evaluierung sowie sorgfältige Prompt- und Grader-Auswahl zurück (HealthBench, HealthBench paper).

Das ist die richtige Lesart für Modell-Grading im Allgemeinen. KI-Judges funktionieren am besten, wenn Menschen die schwierigere Arbeit bereits erledigt haben: die Rubrik definieren, Kriterien auswählen, das Verhalten des Graders validieren und die Domäne begrenzen.

Produktionsevidenz spricht für hybride Evaluator-Stacks

Aus öffentlichen Unterlagen lässt sich ableiten, dass Frontier-Labs bereits bei hybriden Evaluator-Stacks angekommen sind. Anthropics öffentliche Materialien sagen, dass das Training von Claude 4 sowohl menschliches Feedback als auch Constitutional AI nutzte; die Systemkarte beschreibt Datenlabeling-Dienste, Auftragnehmer, Crowd-Worker für Präferenzauswahl und adversarielles Testen, von Fachexperten informierte Prompt-Sets, menschliche Rater für Urteile in mehrdeutigen Kontexten, Experten-Red-Teaming, versteckte Tests und ein menschliches Schnellreaktionsprogramm für Reward Hacks. OpenAIs öffentliche Dokumentation zu Reinforcement Fine-Tuning macht Modell-Grader zu Trainingskomponenten erster Ordnung, weist Teams aber zugleich an, verlässliche Ground-Truth-Bewertungen von menschlichen Experten zu sammeln und Grader-Hacking zu erkennen, indem Modell-Grader-Werte mit menschlicher Expertenbewertung verglichen werden (OpenAI graders, reinforcement fine-tuning).

Für Teams außerhalb der Frontier-Labs bedeutet das: Menschliches Feedback sollte im Stack nach oben wandern, nicht daraus verschwinden. Die wertvollste Arbeit kommt jetzt von spezialisierten Menschen, die Rubriken und Verfassungen schreiben oder freigeben, Evaluatoren an schwierigen Fällen kalibrieren, Uneinigkeit zwischen Judge und Policy prüfen, adversarielle und Holdout-Sets erstellen und Domänen beurteilen, in denen Korrektheit spärlich, multiobjektiv oder sicherheitssensibel ist. KI-Feedback kann dann die repetitive Arbeit dazwischen übernehmen: Kritiken generieren, Kandidaten ranken, Präferenzabdeckung erweitern oder als schneller Inner-Loop-Grader dienen.

Es bleiben offene Fragen. Die Fachliteratur entwickelt sich noch weiter bei Themen wie personalisierter Reward-Modellierung, Long-Form Judging, der Frage, ob Reward-Modelle derselben Abstammung für PPO-ähnliches Training wichtig sind, und wie weit kritikspezialisierte Modelle über die Seed-Domänen hinaus generalisieren können, mit denen sie trainiert wurden. Aber der Kern bleibt stabil: RLAIF versteht man am besten als eine Methode zur Skalierung der Supervision, sobald Menschen das Ziel bereits verankert haben, und nicht als eine Möglichkeit, den Bedarf an menschlich verankerten Zielen oder menschlich verankerten Messungen zu beseitigen (Personalized RewardBench).

OpenTrain kann spezialisierte Evaluatoren und Operatoren für Präferenzdaten innerhalb des Stacks vermitteln, den ein Team bereits nutzt. Nutzen Sie die DPO vs. PPO-Referenz für den Kontext von Optimierer versus Messung, die LLM Judge-Zuverlässigkeitsreferenz für die Evaluatoren-Kalibrierung, den RLHF Scoping-Leitfaden für die Planung von Präferenzdaten und veröffentlichen Sie einen Job, wenn der Engpass in der personellen Besetzung der Review-Schleife liegt.