Cómo definir el alcance de un programa de datos de RLHF

Marco práctico para lanzar RLHF: definir colas, dimensionar evaluadores con rendimiento observado, presupuestar revisión y fijar controles semanales.
La mayoría de los primeros programas de datos de RLHF fallan en la capa humana, no en el bucle PPO. Los errores costosos son comunes: una rúbrica que mezcla seguridad, veracidad, estilo y éxito de la tarea en un solo clic; ninguna pasada de calibración antes del etiquetado de producción; y un presupuesto que asume que cada par de preferencias tiene el mismo costo. Los ejemplos públicos van desde el trabajo inicial de volteretas hacia atrás de OpenAI, que utilizó alrededor de 900 bits de retroalimentación en menos de una hora de tiempo de evaluación, hasta el lanzamiento de HH-RLHF de Anthropic con 169,352 filas elegidas/rechazadas (OpenAI, Anthropic HH-RLHF dataset). El alcance debe provenir de la geometría de la tarea, no de copiar el número de los titulares de un laboratorio de vanguardia.
¿Qué están juzgando realmente los humanos?
Comience con una pregunta más específica que “¿qué respuesta es mejor?”. InstructGPT separó las demostraciones supervisadas, las comparaciones de modelos de recompensa y los prompts para la optimización de políticas; esos productos de datos enseñan diferentes partes del sistema (InstructGPT). Las demostraciones enseñan el formato y la finalización de la tarea. Los pares de preferencias enseñan el juicio relativo. Los grupos de prompts deciden qué ve el modelo ajustado durante el entrenamiento.
Para un primer o segundo programa, divida el trabajo en tres colas:
- Cola de éxito: prompts donde el modelo suele tener razón y necesita comprobaciones de preferencia ocasionales.
- Cola de límites: casos extremos donde el comportamiento se desvía en cuanto a políticas, seguridad, veracidad o estilo.
- Cola de recuperación: casos adversarios o de alto riesgo donde una respuesta incorrecta es costosa.
Esa división de colas determina qué producto de anotación comprar primero. Si necesita preferencias por pares, dirija el programa hacia RLHF y datos de preferencia. Si la falla se encuentra dentro de la respuesta, recopile etiquetas dentro de la respuesta. El trabajo de supervisión de procesos de OpenAI lanzó PRM800K con aproximadamente 800,000 etiquetas a nivel de paso y descubrió que la supervisión de procesos superó a la supervisión de resultados en el entorno MATH evaluado (Let’s Verify Step by Step). Para matemáticas, razonamiento de código y uso de herramientas de múltiples pasos, la preferencia por pares por sí sola suele ser demasiado imprecisa.
¿Cuántos datos son suficientes para la primera ejecución seria?
Utilice programas públicos como modelos operativos, no como cuotas. El trabajo de resumen de OpenAI utilizó 64,832 comparaciones de resúmenes; InstructGPT reportó alrededor de 13,000 prompts supervisados, cerca de 33,000 prompts de modelo de recompensa y aproximadamente 40 contratistas evaluados; PRM800K fue mucho más grande porque cada unidad de supervisión era un juicio más pequeño a nivel de paso (summarization from human feedback, InstructGPT, PRM800K).
Public RLHF program shapes
| Public program | Human-feedback footprint | What it tells you |
|---|---|---|
| OpenAI backflip | About 900 bits of feedback, under 1 hour of evaluator time, and about 70 hours of simulated experience. | Very narrow objectives can justify tiny pilots if the task is easy to judge. |
| OpenAI summarization | 64,832 summary comparisons. | A single-task text-alignment program reaches tens of thousands quickly once you want stable reward modeling. |
| InstructGPT | About 13k SFT prompts, 33k reward-model prompts, and about 40 contractors. | Assistant alignment usually needs multiple queues, not one annotation type. |
| Anthropic HH-RLHF | 169,352 chosen and rejected rows in the released dataset; the underlying training setup used weekly online refresh with fresh human feedback. | Conversational post-training benefits from refresh loops, not one static batch. |
| OpenAI process supervision | PRM800K with 800,000 step-level labels; the process-supervised model solved 78% of a representative MATH subset. | Step-level labels are only worth the cost when intermediate correctness is the real bottleneck. |
OpenAI backflip
- Human-feedback footprint
- About 900 bits of feedback, under 1 hour of evaluator time, and about 70 hours of simulated experience.
- What it tells you
- Very narrow objectives can justify tiny pilots if the task is easy to judge.
OpenAI summarization
- Human-feedback footprint
- 64,832 summary comparisons.
- What it tells you
- A single-task text-alignment program reaches tens of thousands quickly once you want stable reward modeling.
InstructGPT
- Human-feedback footprint
- About 13k SFT prompts, 33k reward-model prompts, and about 40 contractors.
- What it tells you
- Assistant alignment usually needs multiple queues, not one annotation type.
Anthropic HH-RLHF
- Human-feedback footprint
- 169,352 chosen and rejected rows in the released dataset; the underlying training setup used weekly online refresh with fresh human feedback.
- What it tells you
- Conversational post-training benefits from refresh loops, not one static batch.
OpenAI process supervision
- Human-feedback footprint
- PRM800K with 800,000 step-level labels; the process-supervised model solved 78% of a representative MATH subset.
- What it tells you
- Step-level labels are only worth the cost when intermediate correctness is the real bottleneck.
OpenTrain synthesis from cited public sources.
La primera regla es hacer una prueba piloto antes de escalar. RewardBench reporta que algunos conjuntos de pruebas de datos de preferencia tienen un límite de precisión humana en el rango del 60-70%, lo que significa que el desacuerdo puede ser una propiedad de la tarea en lugar de una falla en la capacidad del evaluador (RewardBench). Si el acuerdo en su prueba piloto es malo, agregue especificaciones antes de agregar puestos.
La segunda regla es aumentar la densidad de información antes que la cantidad de prompts. InstructGPT pidió a los etiquetadores que clasificaran de 4 a 9 resultados para un prompt, lo que creó más información de comparación por prompt que una sola opción binaria (InstructGPT). Ese suele ser un mejor primer paso que duplicar el grupo de evaluadores en una rúbrica inestable.
¿Cuántos evaluadores necesita realmente?
El recuento de evaluadores es un cálculo de rendimiento con un margen de desacuerdo:
Utilice los números de su prueba piloto para el denominador. La utilización productiva incluye todo lo que roba tiempo al etiquetado puro: actualización de la rúbrica, adjudicación, controles aleatorios, reentrenamiento, descansos y fricción con las herramientas.
Por ejemplo, suponga que la prueba piloto muestra 180 juicios calibrados por evaluador por semana y la próxima actualización necesita 3,000 juicios por semana. Con una utilización productiva del 70%, el equipo base es de ceil(3000 / 180 / 0.70) = 24 evaluadores antes de los márgenes de dominio, idioma, zona horaria y capacidad de respaldo. Si la cola necesita cuatro celdas de dominio-idioma, haga los cálculos por celda antes de agrupar el total.
Las referencias públicas solo son útiles como verificaciones de coherencia. InstructGPT reportó un acuerdo de los etiquetadores de entrenamiento del 72.6 +/- 1.5% y un acuerdo de los etiquetadores de reserva del 77.3 +/- 1.3%; el trabajo de resumen de OpenAI reportó un 73 +/- 4% de acuerdo entre investigadores (InstructGPT, resumen a partir de retroalimentación humana). Esos números no son prescripciones sobre la cantidad de evaluadores. Son recordatorios de que un equipo pequeño y calibrado puede respaldar una ejecución seria, y que un desacuerdo en los altos 60 o bajos 70 puede ser normal cuando la tarea es difícil.
La cobertura importa tanto como el recuento bruto. Si la cola abarca medicina, seguridad multilingüe y revisión de código, usted está dimensionando celdas de dominio-idioma, no un único grupo de trabajo combinado. El AI RMF de NIST exige perspectivas diversas al mapear y medir los riesgos de la IA; su Perfil de IA Generativa también recomienda ejercicios estructurados de retroalimentación humana con roles documentados y rutas de revisión (NIST AI RMF 1.0, NIST GenAI Profile).
¿Cómo se debe elaborar el presupuesto?
Un tarifario de fuente primaria para pares de preferencias de RLHF en diferentes dominios, idiomas y diseños de tareas no es verificable públicamente. En su lugar, presupueste a partir del trabajo cronometrado:
La partida presupuestaria que los equipos pasan por alto es el tiempo de adjudicación y de los investigadores. El artículo de resumen de OpenAI indica que el conjunto de datos de retroalimentación humana requirió una cantidad significativa de horas de etiquetadores y tiempo de investigadores para garantizar la calidad (resumen a partir de retroalimentación humana). Es por eso que los pilotos que parecen baratos en una hoja de cálculo se vuelven costosos una vez que la rúbrica comienza a cambiar.
Trate las tarifas de contratación y del mercado de forma separada de la mano de obra. OpenTrain publica una tarifa de Autoservicio del 15% y una tarifa de Servicio Gestionado del 20%; los equipos pueden contratar directamente o usar el Servicio Gestionado cuando desean que OpenTrain dirija las operaciones del proyecto (precios de OpenTrain). Eso importa cuando el cuello de botella es la contratación y operación de una cola calibrada, no el diseño de la actualización del modelo.
¿Qué cronograma debería planificar?
Piense en etapas de control, no en una fase de etiquetado monolítica:
- Especificar: defina la rúbrica, las reglas de desacuerdo y la ruta de escalamiento.
- Calibrar: ejecute elementos de muestra hasta que la adjudicación deje de descubrir nuevas ramas de la rúbrica todos los días.
- Piloto: etiquete una cola reducida con una revisión estricta.
- Evaluar: requiera negativos difíciles en el conjunto de evaluación.
- Renovar: actualice la rúbrica y repita con una cadencia semanal o basada en lanzamientos.
El patrón de investigación pública respalda los ciclos cortos. El trabajo inicial de preferencias humanas de OpenAI muestreó activamente comparaciones en las que el modelo era incierto; InstructGPT utilizó conjuntos de datos separados para demostraciones, entrenamiento del modelo de recompensa y optimización de políticas; el trabajo de Sparrow de DeepMind utilizó juicios humanos específicos y evaluación respaldada por evidencia; el artículo del asistente útil e inofensivo de Anthropic describe la recopilación iterativa de datos en línea con nueva retroalimentación humana (OpenAI human preferences, InstructGPT, Sparrow, Anthropic HH-RLHF). Los primeros y segundos programas deben copiar el ciclo operativo, no el tamaño del conjunto de datos.
¿Cómo cambia el alcance después de la primera ejecución?
El primer programa debe comprar velocidad de aprendizaje. Un programa maduro debe comprar repetibilidad. Trate a ambos como compras diferentes.
How RLHF scope changes after the first run
| Decision | First RLHF program | Second or mature program |
|---|---|---|
| Data target | Pilot the smallest queue that exposes rubric disagreement, task friction, and obvious reward-model failure modes. | Size weekly refresh batches from observed model drift, new product surfaces, and hard-negative mining. |
| Rater pool | Start with a small calibrated group and over-invest in adjudication notes. | Maintain domain-language cells, backup capacity, reviewer promotion paths, and attrition buffers. |
| QA | Review a high share of labels until the rubric stops changing daily. | Move to sampled review, gold items, disagreement dashboards, and scheduled rubric refresh. |
| Timeline | Gate on specification, calibration, pilot, evaluation, and a first refresh decision. | Gate on weekly or release-based refresh, eval regression checks, and queue-health metrics. |
| Sourcing model | Hire directly if the team can run calibration and adjudication. Use managed service if operating the queue is the bottleneck. | Keep a stable bench, add specialists only where the model or product surface changed, and separate sourcing fees from labor rates. |
| Success artifact | A usable rubric, an eval set with misses, and a rater-capacity model. | A repeatable operating cadence with known throughput, known disagreement bands, and a clear escalation path. |
Data target
- First RLHF program
- Pilot the smallest queue that exposes rubric disagreement, task friction, and obvious reward-model failure modes.
- Second or mature program
- Size weekly refresh batches from observed model drift, new product surfaces, and hard-negative mining.
Rater pool
- First RLHF program
- Start with a small calibrated group and over-invest in adjudication notes.
- Second or mature program
- Maintain domain-language cells, backup capacity, reviewer promotion paths, and attrition buffers.
QA
- First RLHF program
- Review a high share of labels until the rubric stops changing daily.
- Second or mature program
- Move to sampled review, gold items, disagreement dashboards, and scheduled rubric refresh.
Timeline
- First RLHF program
- Gate on specification, calibration, pilot, evaluation, and a first refresh decision.
- Second or mature program
- Gate on weekly or release-based refresh, eval regression checks, and queue-health metrics.
Sourcing model
- First RLHF program
- Hire directly if the team can run calibration and adjudication. Use managed service if operating the queue is the bottleneck.
- Second or mature program
- Keep a stable bench, add specialists only where the model or product surface changed, and separate sourcing fees from labor rates.
Success artifact
- First RLHF program
- A usable rubric, an eval set with misses, and a rater-capacity model.
- Second or mature program
- A repeatable operating cadence with known throughput, known disagreement bands, and a clear escalation path.
OpenTrain scoping model.
¿Dónde suelen fallar los programas?
La mayoría de los fallos de calidad son fallos de medición. RewardBench informa que algunos subconjuntos difíciles siguen siéndolo para los modelos de recompensa, y que el desacuerdo humano puede limitar la fiabilidad de los puntos de referencia (RewardBench). Si una evaluación interna se satura de inmediato, probablemente sea demasiado fácil para gobernar la próxima actualización del modelo.
Para el trabajo relacionado con la veracidad y sensible a las políticas, facilite el juicio al evaluador. Sparrow adjuntó evidencia a las afirmaciones fácticas y evaluó las violaciones de las reglas bajo pruebas adversarias (DeepMind Sparrow blog, Sparrow paper). Para los programas en producción, conecte esto con la evaluación de LLM desde el principio: el conjunto de evaluación debe contener ejemplos en los que el modelo aún falla, no solo ejemplos que demuestren que el piloto funcionó.
La gobernanza entra en el alcance cuando el sistema es de alto riesgo o está destinado a producción. El AI RMF y el GenAI Profile del NIST son referencias operativas útiles para documentar riesgos, métodos de medición y el uso de retroalimentación; la Ley de IA de la UE exige prácticas de gobernanza como documentación técnica, registro, supervisión humana y robustez para los sistemas de IA de alto riesgo (NIST AI RMF 1.0, NIST GenAI Profile, EU AI Act overview). Esto no es asesoramiento legal. Es un recordatorio de alcance: si el pipeline de RLHF alimenta un flujo de trabajo de alto riesgo, la documentación comienza en la semana uno.
¿Qué debería dejar como resultado el primer programa?
Un buen primer programa de RLHF deja tres activos reutilizables:
- Una rúbrica que absorbió la adjudicación repetida.
- Un conjunto de evaluación con ejemplos en los que el modelo aún falla.
- Un modelo de capacidad de evaluadores que el equipo puede ejecutar semanalmente sin tener que volver a aprender las operaciones.
Si esos artefactos existen, definir el alcance del próximo programa será más económico. Si no, el equipo compró etiquetas pero no compró un sistema operativo.
Qué hacer a continuación
Referencias
- OpenAI — Learning from human preferences
- Training language models to follow instructions with human feedback
- Aprender a resumir a partir de la retroalimentación humana
- Ficha del conjunto de datos HH-RLHF de Anthropic
- Entrenamiento de un asistente útil e inofensivo con RLHF
- Sparrow: Mejora de la alineación de agentes de diálogo mediante juicios humanos específicos
- DeepMind — Creación de agentes de diálogo más seguros
- Verifiquemos paso a paso
- RewardBench
- NIST AI RMF 1.0
- Perfil de IA generativa del NIST
- Resumen de la Ley de IA de la UE
- Precios de OpenTrain