Saltar al contenido
OpenTrain AIPara empresas de IA

RLAIF vs. RLHF: Lo que la retroalimentación de IA puede y no puede reemplazar

OpenTrain AIel 11 min de lectura
Abstract frosted-glass calibration field for RLAIF vs RLHF.

Dónde la retroalimentación de IA puede escalar la supervisión post-entrenamiento, y dónde los objetivos basados en humanos, la calibración, la revisión de expertos y los datos.

RLAIF no está reemplazando a RLHF en el sentido estricto que sugieren los titulares. A partir del 4 de junio de 2026, la evidencia pública más sólida respalda una afirmación más limitada y útil: la retroalimentación de IA a menudo puede sustituir una costosa capa intermedia en el posentrenamiento, es decir, la generación de críticas a gran escala, el etiquetado de preferencias por pares y algunos bucles iterativos de mejora de políticas.

Pero la misma literatura también muestra fracasos repetidos cuando los equipos tratan al evaluador sintético como la verdad absoluta. Los modelos de recompensa que obtienen buenas puntuaciones en puntos de referencia estáticos pueden fallar al predecir la preferencia humana posterior. Los jueces LLM pueden superar solo marginalmente al azar en comparaciones centradas en la exactitud o ser inestables en resultados extensos. Las mezclas de preferencias sintéticas pueden mejorar los puntos de referencia de capacidad amplia mientras degradan el comportamiento de seguridad bajo presión de jailbreak. La pregunta operativa no es si la retroalimentación de IA puede sustituir a la retroalimentación humana. Es dónde la retroalimentación de IA es una señal de optimización productiva, y dónde los humanos deben seguir siendo quienes establecen los objetivos, los calibradores, los adversarios y los medidores finales (RLAIF vs RLHF, JudgeBench, More is Less).

Lo que realmente muestra la comparación directa de RLAIF

El resultado a favor de RLAIF más defendible sigue siendo la comparación de Google de 2023. En ese estudio, los humanos prefirieron tanto RLAIF como RLHF sobre la línea base de SFT por márgenes similares en resumen y diálogo útil, sin diferencias estadísticamente significativas entre RLAIF y RLHF, y RLAIF obtuvo una mayor inofensividad en la configuración de diálogo inofensivo. El mismo artículo advierte que los dominios de alto riesgo como la medicina, el derecho y el empleo aún deben tratar a los expertos humanos capacitados como el estándar de oro.

Ese límite importa. El experimento muestra que las preferencias generadas por IA pueden reemplazar un gran bloque de producción de etiquetas de preferencia en algunos regímenes. No muestra que la evaluación humana desaparezca. Los humanos aún deciden si la política resultante es realmente mejor.

El trabajo original de Constitutional AI de Anthropic señala lo mismo de una forma diferente. Constitutional AI reduce la necesidad de que los humanos etiqueten cada resultado dañino directamente, pero comprime la intención humana en una constitución escrita: principios que guían las autocríticas, las revisiones y las clasificaciones de preferencias generadas por IA. La actualización de la constitución de 2026 de Anthropic y la tarjeta de sistema de Claude 4 describen pilas de entrenamiento y evaluación híbridas que involucran retroalimentación humana, Constitutional AI, servicios de etiquetado de datos, contratistas, selección de preferencias por trabajadores colaborativos, equipos rojos de expertos, pruebas adversarias, pruebas ocultas y monitoreo continuo (Constitutional AI, Claude’s new constitution, Claude 4 system card).

The real substitution boundary is narrower than 'AI stands in for human feedback.'

Pipeline familyWhat humans still supplyWhat AI feedback can scaleWhere it tends to work bestWhat it does not replace
RLHFDemonstrations, pairwise preferences, rater policy, eval designLimited assistance in triage or pre-filteringGeneral instruction-following when latent preference needs direct human groundingHuman objective definition, evaluator calibration, adversarial testing, holdout measurement
RLAIFTask framing, rubric or policy intent, AI-labeler choice, final evaluationPairwise rankings, scalar rewards, some direct online rewards, faster iterationCases where 'better' can be legibly expressed and a stronger judge is availableGold-standard evaluation, domain-expert adjudication, unseen edge-case review
Constitutional AIConstitution or principles, policy boundaries, exception handlingSelf-critiques, revisions, constitution-guided rankings, synthetic conversationsSafety and refusal style where values can be written down as principlesWhether the constitution is complete, well-prioritized, or robust to adversaries
Model-generated critiquesSeed preference data, critique rubrics, quality filtersNatural-language critiques that enrich reward-model or policy trainingData efficiency, critique generation, richer supervision than scalar-only RMsRobustness to distribution shift without holdouts and human audit
Model-graded training and evalHuman-written rubrics, ground-truth grades, hidden tests, grader meta-evalsCheap repeated scoring during training or large-scale offline evalNarrow, well-specified tasks with low-noise rubricsIndependent measurement of real-world behavior without human grounding

OpenTrain synthesis from RLAIF vs RLHF, Constitutional AI, Anthropic public system documentation, and OpenAI grader/RFT documentation.

Por qué la retroalimentación de IA escala

El posentrenamiento moderno a menudo se beneficia de una supervisión intermedia estructurada en lugar de solo tuplas de preferencias humanas sin procesar. UltraFeedback demostró que se podía construir un gran conjunto de datos de retroalimentación de IA a escala: alrededor de 64,000 prompts, cuatro finalizaciones por prompt, y más de un millón de anotaciones de retroalimentación de GPT-4 en más de 250,000 conversaciones (UltraFeedback).

El trabajo posterior fue más allá de las victorias escalares por pares. Los métodos de crítica sintética demostraron que las críticas en lenguaje natural generadas por modelos pueden mejorar la solidez del modelo de recompensa y la eficiencia de los datos. Critic-RM reportó ganancias de precisión de 3.7 a 7.3 puntos sobre los modelos de recompensa estándar y los jueces LLM al entrenar conjuntamente la predicción de recompensas y la generación de críticas. La línea HelpSteer3 de NVIDIA llevó la misma idea en una dirección más fundamentada en los humanos: los comentarios humanos y los datos de edición entrenan modelos dedicados de comentarios/edición, mientras que HelpSteer3-Preference agrega más de 40,000 muestras de preferencia anotadas por humanos en entornos STEM, de programación y multilingües (críticas sintéticas, Critic-RM, HelpSteer3, HelpSteer3-Preference).

Estas formulaciones al estilo de Bradley-Terry siguen siendo la abstracción básica detrás de muchos pipelines de modelos de recompensa:

pθ(ywylx)=exp(rθ(x,yw))exp(rθ(x,yw))+exp(rθ(x,yl))p_\theta(y_w \succ y_l \mid x)=\frac{\exp(r_\theta(x,y_w))}{\exp(r_\theta(x,y_w))+\exp(r_\theta(x,y_l))}
The model estimates the probability that a chosen answer should beat a rejected answer under a learned proxy reward.

La supervisión de preferencias a menudo se ajusta entonces con una pérdida de esta forma:

L(θ,D)=E(x,yw,yl)D[log(1+exp(rθ(x,yl)rθ(x,yw)))]\mathcal{L}(\theta,D)=\mathbb{E}_{(x,y_w,y_l)\sim D}\left[\log\left(1+\exp\left(r_\theta(x,y_l)-r_\theta(x,y_w)\right)\right)\right]
Preference learning quality is downstream-limited by the quality and representativeness of the dataset, not just by the optimizer.

El punto de fallo práctico no suele ser la matemática. Es si el conjunto de datos, la función de recompensa y la distribución de implementación posterior aún reflejan el mismo objetivo una vez que comienza la presión de optimización (sobreoptimización del modelo de recompensa, RLHF restringido).

Dónde falla primero la retroalimentación de IA

La razón central por la que RLAIF no puede servir como la capa de medición humana es la transferencia de puntos de referencia. La Evaluación de Proxy de Preferencia (PPE) es especialmente útil aquí porque hace la pregunta correcta: no “¿se ve bien el modelo de recompensa fuera de línea?”, sino “¿produce modelos posteriores a RLHF más fuertes bajo la preferencia humana?”. PPE informa que el RewardBench original podría incluso correlacionarse negativamente con la preferencia humana posterior a DPO en los modelos principales, y que la precisión detallada en diversos conjuntos de datos de preferencia humana y corrección fue más predictiva de los resultados posteriores en Chatbot Arena que las métricas de estilo de correlación de rango. PPE vinculó esos hallazgos a 12,190 votos humanos en modelos posentrenados (Cómo evaluar modelos de recompensa para RLHF).

RewardBench 2 debe leerse como una respuesta a ese fallo, no como una contradicción del mismo. RewardBench 2 introduce indicaciones humanas no vistas, evaluación best-of-4 y seis dominios. Informa que los modelos obtienen aproximadamente 20 puntos menos que en el RewardBench original, al tiempo que logran una mejor correlación posterior. Pero es explícito en que una puntuación alta en el punto de referencia es solo un requisito previo, no una condición suficiente para un buen RLHF, y que el mejor modelo de recompensa para RLHF depende de la configuración de entrenamiento y el linaje del modelo (RewardBench 2).

Los jueces LLM muestran el mismo patrón. JudgeBench se creó porque el acuerdo de preferencia humana por sí solo era un objetivo demasiado débil para tareas con gran peso en la corrección, y descubrió que muchos modelos de jueces fuertes estaban solo un poco por encima del azar en pares de respuestas difíciles de corrección objetiva. Un trabajo separado sobre el sesgo de los jueces cataloga el sesgo de posición, el sesgo de verbosidad, la autopreferencia y otros atajos. LongJudgeBench extiende el problema a la evaluación de formato largo, donde las rúbricas y las referencias ayudan pero no eliminan la inestabilidad (JudgeBench, sesgo de jueces, LongJudgeBench).

Failure modes that make AI feedback a poor measurement anchor.

Failure modeRepresentative evidenceWhy AI feedback mispredictsMitigation patternWhat remains human-anchored
Offline RM benchmark looks good, policy disappointsPPE vs original RewardBenchBenchmark signal is not tightly linked to post-training human preferenceUse unseen prompts, correctness + human-preference mixes, and downstream holdoutsFinal human preference measurement
Judge prefers style over substanceRM-Bench and judge-bias studiesStyle cues, verbosity, position, and self-preference act as shortcutsRandomize order, run style-control analyses, tighten rubricsBias adjudication and meta-eval design
Long-form judge instabilityLongJudgeBenchContext and protocol complexity exceed judge robustnessUse task-specific rubrics, chunking, references, and human spot checksLong-form quality judgment
Multi-model synthetic preferences weaken safetyMore is LessModel optimizes separable superficial cues rather than robust safety constraintsUse tighter data curation, safety-specific evals, and adversarial jailbreak testingSafety acceptance criteria
Self-critique shifts off-policySCOPCritiques are generated on a distribution no longer matching the current policyGenerate critiques on-policy and use multi-objective rewardsSelection of objectives and failure review
RL reward hackingClaude 4 system card and overoptimization workProxy reward can be gamed under optimization pressureUse hidden tests, monitors, reward constraints, and rapid human reviewDetecting and redefining failure cases

OpenTrain synthesis from PPE, RM-Bench, JudgeBench, LongJudgeBench, More is Less, SCOP, Anthropic Claude 4, and reward-overoptimization papers.

Dos fallos merecen énfasis porque son fáciles de pasar por alto cuando los equipos celebran la escala de los datos sintéticos. Primero, una mayor diversidad sintética puede producir una peor alineación de seguridad. “More is Less” aísla la fuente de datos del método de optimización y descubre que los datos de preferencia sintéticos de múltiples modelos mejoran varios puntos de referencia generales al tiempo que aumentan las tasas de éxito de los ataques de jailbreak, mientras que las respuestas autogeneradas filtradas por un modelo de recompensa producen una ASR materialmente menor en múltiples familias de modelos. Segundo, los canales de autocrítica se desvían de la política. SCOP muestra que los modelos en rondas posteriores critican el razonamiento de rondas anteriores de manera más efectiva que sus propios resultados actuales. La solución no es más automatización en abstracto; es un acoplamiento más estrecho entre el evaluador y la distribución de entrenamiento real, además de una evaluación adversaria y de reserva que se mantenga externa al bucle de optimización (More is Less, SCOP).

El contraejemplo más fuerte está sujeto a rúbricas

HealthBench es el contraejemplo más fuerte y, por lo tanto, el más instructivo. No demuestra que los calificadores de IA reemplacen a los expertos. Muestra las condiciones bajo las cuales pueden aproximarse a la medición de los expertos.

HealthBench comprende 5,000 conversaciones realistas y 48,562 criterios de rúbrica escritos por médicos, desarrollados con 262 médicos en 60 países. Luego se utiliza GPT-4.1 como un calificador basado en modelos frente a esos criterios escritos por médicos. En el subconjunto de consenso, GPT-4.1 superó la puntuación MF1 promedio de los médicos en cinco de siete temas, se situó en la mitad superior de los médicos en seis de siete y se mantuvo por encima del tercio inferior en todos los temas. OpenAI atribuye ese éxito a una verdad fundamental diversa y bien anotada, una metaevaluación bien diseñada y una cuidadosa selección de prompts y calificadores (HealthBench, HealthBench paper).

Esa es la lectura correcta para la calificación de modelos en general. Los jueces de IA funcionan mejor cuando los humanos ya han hecho el trabajo más difícil de definir la rúbrica, seleccionar los criterios, validar el comportamiento del calificador y limitar el dominio.

La evidencia en producción apunta a stacks de evaluadores híbridos

La inferencia a partir de la documentación pública sugiere que los laboratorios de frontera ya han convergido en stacks de evaluadores híbridos. Los materiales públicos de Anthropic indican que el entrenamiento de Claude 4 utilizó tanto retroalimentación humana como IA Constitucional; su tarjeta de sistema describe servicios de etiquetado de datos, contratistas, trabajadores colaborativos para la selección de preferencias y pruebas adversarias, conjuntos de prompts informados por expertos en la materia (SME), evaluadores humanos para juicios de contexto ambiguo, equipos rojos expertos, pruebas ocultas y un programa humano de respuesta rápida para hackeos de recompensas. Los documentos públicos de ajuste fino por refuerzo de OpenAI elevan a los calificadores de modelos a componentes de entrenamiento de primera clase, pero también instruyen a los equipos a recopilar calificaciones de verdad fundamental confiables de expertos humanos y a detectar el hackeo de calificadores comparando las puntuaciones de los calificadores de modelos con la evaluación humana experta (OpenAI graders, reinforcement fine-tuning).

Para los equipos que no son de frontera, la implicación es que la retroalimentación humana debería ascender en el stack, no desaparecer de él. El trabajo de mayor valor ahora proviene de humanos especialistas que escriben o aprueban rúbricas y constituciones, calibran evaluadores frente a casos difíciles, revisan desacuerdos entre jueces y políticas, crean conjuntos adversarios y de reserva, y adjudican dominios donde la corrección es escasa, multiobjetivo o sensible a la seguridad. La retroalimentación de IA puede entonces hacer el trabajo repetitivo intermedio: generar críticas, clasificar candidatos, expandir la cobertura de preferencias o servir como un calificador rápido de bucle interno.

Aún quedan preguntas abiertas. La literatura sigue avanzando en el modelado de recompensas personalizadas, la evaluación de formato largo, si los modelos de recompensa del mismo linaje son importantes para el entrenamiento tipo PPO, y hasta qué punto los modelos especializados en críticas pueden generalizar fuera de los dominios semilla que los entrenaron. Pero el núcleo es estable: RLAIF se entiende mejor como una forma de escalar la supervisión una vez que los humanos ya han fundamentado el objetivo, no como una forma de eliminar la necesidad de objetivos fundamentados por humanos o mediciones fundamentadas por humanos (Personalized RewardBench).

OpenTrain puede conseguir evaluadores especialistas y operadores de datos de preferencia dentro del stack que un equipo ya utiliza. Utilice la referencia de DPO vs. PPO para el contexto de optimizador frente a medición, la referencia de confiabilidad del juez LLM para la calibración de evaluadores, la guía de alcance de RLHF para la planificación de datos de preferencia, y publique un trabajo cuando el cuello de botella sea la dotación de personal para el ciclo de revisión.

Fuentes