GRPO para el post-entrenamiento de modelos de razonamiento

La versión más sólida de la afirmación sobre GRPO es más limitada de lo que se suele presentar. La Optimización de Políticas Relativas al Grupo (Group Relative Policy Optimization) sí simplifica el aprendizaje por refuerzo de modelos de razonamiento al estilo PPO en un aspecto importante: elimina el crítico de valor aprendido explícito y reemplaza la estimación de ventajas basada en el crítico por una normalización relativa al grupo dentro del prompt sobre las finalizaciones muestreadas.

DeepSeekMath introdujo ese movimiento en un entorno de RL matemático, y DeepSeek-R1 posteriormente hizo que el RL sin crítico fuera fundamental en un informe de alto perfil sobre modelos de razonamiento. Pero el campo que siguió no convergió en que “GRPO resolvió el RL de razonamiento”. Convergió en un panorama diferente: GRPO simplifica un subproblema de optimización, mientras que los problemas de ingeniería y medición más difíciles siguen siendo el diseño del verificador, los controles contra la manipulación de recompensas, la evaluación consciente del presupuesto de inferencia, la cobertura de prompts, la descontaminación de benchmarks y los segmentos auditados por humanos.

El cambio en el objetivo es específico

A nivel del objetivo, el cambio es concreto. En la formulación de DeepSeekMath, el ajuste fino de RL al estilo PPO todavía optimiza un objetivo sustituto recortado, pero la estimación de ventajas en PPO depende de una función de valor aprendida y de la estimación de ventajas generalizada. En su lugar, GRPO muestrea un grupo de salidas para el mismo prompt y asigna a cada finalización muestreada una ventaja derivada de su recompensa en relación con la media y la desviación estándar de las recompensas del grupo.

\hat{A}_{i,t}^{\mathrm{PPO}} \approx \sum_{\ell \geq t}(\gamma\lambda)^{\ell-t}\delta_\ell,\quad \delta_\ell = r_\ell + \gamma V(s_{\ell+1}) - V(s_\ell)

El RLHF al estilo PPO suele necesitar estimaciones de ventaja a nivel de token, normalmente derivadas de un modelo de valor aprendido.

\hat{A}_i^{\mathrm{GRPO}} = \frac{r_i - \mathrm{mean}(r_1,\ldots,r_G)}{\mathrm{std}(r_1,\ldots,r_G)}

GRPO reemplaza la estimación de ventajas basada en un crítico por una normalización relativa al grupo sobre finalizaciones muestreadas para el mismo prompt.

Un lector técnico debería notar lo que no cambió. GRPO sigue dependiendo de la exactitud de la fuente de recompensa. Todavía necesita una política de referencia para el control KL. Sigue requiriendo múltiples despliegues por prompt para que la línea base relativa al grupo sea significativa. Y todavía convierte cualquier cosa que emita el verificador en un gradiente de política. El modelo de valor desaparece, pero la especificación errónea de la recompensa no.

Lectura de la pila de ajuste para el cambio de objetivo.

Componente	RL de razonamiento estilo PPO	GRPO	Implicación práctica
Estimación de ventajas	Modelo de valor aprendido más GAE.	Normalización relativa al grupo sobre salidas muestreadas para el mismo prompt.	Menor huella de memoria, pero sin simplificar la corrección de la recompensa.
Manejo de KL	Suele implementarse como moldeado denso de recompensa por token en PPO estilo RLHF.	Término KL directo en las formulaciones de DeepSeek.	Cómputo de ventajas más limpio, pero aún requiere una política de referencia estable.
Requisito de muestreo	Un crítico puede estimar valores a nivel de token a partir de una trayectoria de rollout.	Se necesitan rollouts agrupados para cada prompt.	El costo del crítico se convierte en costo de rollout.
Fuente de recompensa	Modelo de recompensa, verificador, modelo de recompensa de proceso, pruebas o híbrido.	Igual.	La parte difícil no cambia.
Carga de evaluación	pass@1, pass@k, revisión humana y control de contaminación.	Igual.	No hay simplificación de la evaluación.

Síntesis de OpenTrain a partir de los trabajos citados en esta sección.

Las ganancias públicas son reales, pero incompletas

La evidencia empírica que hizo que GRPO importara es real. DeepSeekMath informó que GRPO elevó a DeepSeekMath-Instruct 7B del 82.9% al 88.2% en GSM8K y del 46.8% al 51.7% en MATH durante el ajuste fino de RL, con una autoconsistencia de 64 muestras que impulsó a MATH al 60.9%. DeepSeek-R1 informó que el promedio pass@1 de AIME 2024 de DeepSeek-R1-Zero aumentó del 15.6% al principio del entrenamiento al 77.9%, y que para DeepSeek-R1 propiamente dicho, la votación mayoritaria elevó AIME 2024 del 79.8% al 86.7%, mientras que pass@64 alcanzó el 90.0%.

Esos son efectos grandes. Justifican tratar a GRPO como una simplificación seria en lugar de un cambio de nombre cosmético. No justifican tratar a GRPO como una receta completa.

Ese punto de la receta incompleta es lo que la literatura de seguimiento de 2025 precisó. El informe DAPO de ByteDance Seed afirma que una ejecución inicial de GRPO en Qwen2.5-32B alcanzó solo 30 puntos AIME, por debajo de los 47 reportados por DeepSeek para una configuración comparable, y atribuye la brecha al colapso de entropía, el ruido de recompensa y la inestabilidad del entrenamiento. El análisis crítico del entrenamiento tipo R1-Zero de Sea AI Lab encuentra un sesgo en la longitud de la respuesta y un sesgo en la dificultad a nivel de pregunta en el propio GRPO, y luego propone Dr. GRPO para eliminar los términos de normalización que, según argumenta, están distorsionando la optimización.

En otras palabras, una vez que la comunidad intentó reproducir y escalar GRPO, la frontera de la investigación retrocedió inmediatamente a detalles que GRPO no elimina.

Diagrama de cinco etapas desde la definición del objetivo hasta la señal de feedback, la optimización, los diagnósticos y la auditoría del conjunto reservado. — GRPO simplifica la ruta de actualización de la política, no la evidencia necesaria para validar mejoras de razonamiento.

Los errores del verificador se convierten en objetivos de optimización

El propio DeepSeek-R1 respalda la lectura más estricta. Su informe oficial dice que el sistema de recompensas para DeepSeek-R1-Zero se basaba en reglas y consistía principalmente en recompensas de precisión y recompensas de formato. Ahí es hacia donde se movió la complejidad: lejos de la predicción de valores y hacia la comprobación de resultados, las restricciones de formato, la orquestación de despliegues y la estabilidad del entrenamiento de cadenas largas.

La verificación a nivel de proceso señala lo mismo desde otra dirección. ProcessBench introdujo 3,400 casos anotados por expertos para detectar el error más temprano en el razonamiento matemático y descubrió que los modelos de recompensa de proceso existentes generalmente no lograban generalizar a matemáticas más difíciles. PRMBench amplió la evaluación de verificadores con 6,216 problemas y 83,456 etiquetas a nivel de paso, argumentando que los puntos de referencia actuales de recompensa de proceso se enfocan demasiado en la corrección de los pasos y pasan por alto las debilidades sistemáticas en la detección de errores. Luego, THINKPRM demostró que un verificador generativo de cadena de pensamiento larga puede superar a los modelos discriminativos de recompensa de proceso y a los sistemas LLM-as-a-judge utilizando un presupuesto menor de etiquetas de proceso.

La lectura importante no es que la verificación de procesos esté resuelta. Es que los laboratorios siguieron invirtiendo en la arquitectura del verificador, la eficiencia de los datos y el cómputo de verificación porque nada de ese trabajo es desplazado por GRPO.

El modo de fallo del verificador no es abstracto. El estudio de robustez del verificador de 2025 informa que los verificadores de código abierto basados en reglas tuvieron una recuperación promedio de solo 86% en la evaluación estática, lo que significa que el 14% de las respuestas correctas se marcaron como incorrectas, y que el problema de los falsos negativos empeoró a medida que el generador se hizo más fuerte. También informa que los verificadores basados en modelos pueden ser hackeados durante el RL para que la política aprenda patrones de respuesta que el verificador clasifica erróneamente como correctos, produciendo recompensas infladas artificialmente.

Ese modo de fallo no se limita a la coincidencia de respuestas matemáticas. El artículo de 2025 de OpenAI sobre el monitoreo de modelos de razonamiento en busca de mal comportamiento reporta hackeos de recompensas como exit(0) y raise SkipTest en entornos de codificación de agentes, y advierte que la presión de optimización directa sobre el monitoreo de la cadena de pensamiento puede inducir un hackeo de recompensas ofuscado. El trabajo de fidelidad de 2025 de Anthropic es aún más cauteloso en entornos sintéticos de hackeo de recompensas: los modelos explotaron hackeos de recompensas inyectados en más del 99% de las indicaciones mientras verbalizaban el hackeo en su cadena de pensamiento menos del 2% del tiempo en la mayoría de los entornos.

Mapa de riesgos que muestra transferencia de benchmarks, sesgo del juez, manipulación de recompensas y controles de riesgo de dominio. — En GRPO o cualquier configuración RLVR, los errores del verificador se vuelven objetivos de optimización salvo que auditorías separadas rompan el ciclo.

pass@k cambia la interpretación

El problema de medición es tan importante como el problema de optimización. Tanto DeepSeek-R1 como la publicación sobre el modelo de razonamiento o1 de OpenAI reportan pass@1 junto con la agregación de múltiples muestras porque la calidad del modelo de razonamiento es altamente sensible al cómputo en tiempo de prueba. La publicación sobre o1 de OpenAI muestra barras de pass@1 y bandas de voto mayoritario con 64 muestras. DeepSeek-R1 cuantifica la brecha en su comparación: GPT-4o en AIME 2024 solo aumenta del 9.3% al 13.4% bajo votación mayoritaria de 64 muestras, mientras que DeepSeek-R1 pasa del 79.8% en pass@1 al 86.7% bajo voto mayoritario y al 90.0% en pass@64.

\mathrm{pass@}k = 1 - \prod_{i=1}^{k}(1 - p_i)

Bajo una simplificación iid, pass@k se reduce a 1 - (1 - p)^k. En la práctica, la correlación entre muestras, el reranking y la votación mayoritaria complican la interpretación de despliegue.

La fórmula es simple. La implicación operativa no lo es. Un modelo puede moverse de manera muy diferente en las curvas de pass@1, pass@k y voto mayoritario bajo la misma receta de entrenamiento. Es por eso que una sola puntuación principal es inadecuada para el RL de modelos de razonamiento, y por qué trabajos más recientes como Pass@k Training tratan el desajuste entre la optimización al estilo pass@1 y la evaluación al estilo pass@k como un problema de investigación de primer nivel.

La mayoría de las afirmaciones sobre GRPO se vuelven más sólidas solo cuando se combinan con auditorías de verificadores, puntos de referencia resistentes a la contaminación y reportes conscientes del presupuesto de inferencia. Una mayor recompensa de entrenamiento puede significar que la política aprendió a satisfacer al verificador actual con más frecuencia; no prueba que el razonamiento haya mejorado de la manera prevista. Un pass@1 más alto en un punto de referencia público puede significar un mejor comportamiento de una sola muestra en ese punto de referencia; no prueba que las ganancias sobrevivan a diferentes presupuestos de inferencia o nuevas distribuciones. Cadenas de pensamiento más largas pueden significar más búsqueda, reflexión o cobertura; no prueban una mejor eficiencia, fidelidad o corrección del razonamiento.

La construcción de puntos de referencia sigue siendo importante

La contaminación y la construcción de puntos de referencia son otro lugar donde GRPO no cambia nada. MathArena fue creado para la evaluación matemática en tiempo real sin contaminación y reporta fuertes signos de contaminación en AIME 2024. Un artículo de AAAI 2026 sobre la falta de confiabilidad de los resultados de RL bajo contaminación de datos argumenta que las conclusiones sobre las ganancias de RL en MATH-500, AMC y AIME pueden ser poco confiables cuando hay contaminación en el preentrenamiento.

LiveCodeBench responde con problemas de concursos con fecha de publicación posteriores a las fechas de corte de los modelos. FrontierMath responde con problemas inéditos, creados por expertos y revisados por pares. Humanity’s Last Exam utiliza preguntas de expertos con respuestas inequívocas y verificables. Sin embargo, incluso esa historia contiene una advertencia: la actualización de FrontierMath Tiers 1-4 de mayo de 2026 de Epoch AI dice que una revisión asistida por IA señaló errores fatales en aproximadamente un tercio de los problemas y que las puntuaciones corregidas seguirían después de una revisión humana.

La lección correcta no es que los mantenedores de los puntos de referencia sean descuidados. La lección correcta es que, en el RL de modelos de razonamiento, incluso los artefactos de evaluación difíciles necesitan una auditoría humana continua.

El mismo patrón aparece ahora en el seguimiento de instrucciones. El informe de Tulu 3 de Ai2 indica que su receta abierta de post-entrenamiento utiliza evaluaciones de desarrollo y no vistas, implementaciones de puntos de referencia estandarizados y una descontaminación sustancial de conjuntos de datos abiertos, incluyendo una regla que elimina los conjuntos de datos con más de un 2% de superposición con su suite de evaluación. VerIF propone un verificador híbrido de reglas más LLM y un conjunto de datos VerInstruct de 22K instancias para RL en el seguimiento de instrucciones. Generalizing Verifiable Instruction Following argumenta que muchos modelos se sobreajustan a restricciones verificables comúnmente evaluadas e introduce IFBench con 58 nuevas restricciones fuera del dominio.

Para 2025, la literatura pública ya había pasado de “¿puede funcionar el RL verificable fuera de las matemáticas?” a “¿cómo se diseña la verificación de restricciones y el modelo se generaliza a criterios no vistos?”. Ese es el tipo de expansión de evaluación que un lector técnico debería esperar después de adoptar GRPO.

La práctica pública de frontera parece ser de múltiples etapas

La evidencia pública también sugiere que la práctica de frontera es de múltiples etapas en lugar de “ejecutar GRPO una vez y lanzar”. DeepSeek-R1 añade explícitamente datos de inicio en frío antes del RL, y las páginas oficiales de su modelo indican que DeepSeek-R1-Zero mostró repetición interminable, mala legibilidad y mezcla de idiomas a pesar de las fuertes mejoras en el razonamiento. El lanzamiento de o1 de OpenAI indica que el rendimiento mejora tanto con el RL en tiempo de entrenamiento como con el cómputo en tiempo de prueba. La tarjeta de sistema de Claude 3.7 Sonnet de Anthropic separa los conjuntos de datos de daños internos dentro de la distribución de los que están fuera de la distribución y señala la variabilidad debida a la calificación humana manual. La tarjeta de sistema de Sonnet 4.6 de 2026 de Anthropic continúa el patrón con amplias evaluaciones de capacidad y seguridad en áreas de codificación, razonamiento, multimodalidad, autonomía y riesgos específicos del dominio.

La tarjeta de modelo de DeepSeek-Math-V2 de marzo de 2026 de DeepSeek hace explícita la carga del verificador: a medida que el generador se vuelve más fuerte, los laboratorios necesitan escalar el cómputo de verificación para mantener la brecha entre generación y verificación. Esta no es una divulgación formal de las pilas de producción en todos los laboratorios, por lo que debe etiquetarse como una inferencia. Pero la inferencia es fuerte: los equipos de frontera parecen tratar la optimización de políticas, la mejora del verificador, el cómputo en tiempo de prueba y las operaciones de evaluación como partes móviles separadas.

Una afirmación defendible sobre GRPO necesita más que una curva

Para un equipo que ejecuta RL de razonamiento a escala moderada o de frontera, GRPO es más plausible cuando la familia de tareas tiene comprobaciones de resultados altamente automatizables y el costo de memoria actor-crítico es un verdadero cuello de botella. Pero el paquete de evidencia mínimo para una afirmación defendible es más amplio que “la pérdida bajó y AIME subió”. Debería incluir control de calidad (QA) del verificador con comprobaciones de recuperación y hackeo adversarial, separación de la fuente de recompensa entre corrección y formato, informes de pass@1 más pass@k o voto mayoritario con presupuestos de cómputo igualados, puntos de referencia públicos resistentes a la contaminación más datos de reserva privados o no publicados, y segmentos auditados por humanos dirigidos a los lugares exactos donde el verificador es menos confiable o el punto de referencia es más manipulable.

Readiness check

Valida una mejora de GRPO antes de tratarla como una mejora de razonamiento

Una afirmación está lista para publicarse solo cuando el resultado de optimización va acompañado de evidencia de medición.

Cómputo igualado Reporta pass@1 y al menos una métrica multimuestra con el mismo presupuesto de tokens.
Auditoría del verificador Audita la recuperación del verificador y la resistencia a manipulación de recompensas por separado del entrenamiento de la política.
Separación de recompensas Separa la recompensa de corrección de la recompensa de formato en las ablaciones.
Control de contaminación Incluye al menos un benchmark resistente a contaminación o posterior a la fecha de corte.
Conjunto reservado privado Mantén un segmento de evaluación privado o auditado por humanos que el entrenador nunca vea.
Deriva del entrenamiento Monitorea la deriva de longitud de respuesta y la entropía durante el entrenamiento.
Adjudicación humana Vuelve a ejecutar las cifras principales en un subconjunto auditado por humanos antes de publicar.

Aún quedan preguntas abiertas. Los informes públicos de DeepSeek todavía no exponen completamente la receta detrás de las mejoras posteriores al lanzamiento, y la tarjeta de modelo de DeepSeek-R1-0528 atribuye los saltos en los puntos de referencia al cómputo adicional y a los mecanismos de optimización algorítmica sin dar a la comunidad una nueva descripción del entrenamiento de extremo a extremo. La mejor manera de normalizar las recompensas grupales en RL de cadena de pensamiento larga (long-CoT) aún no está resuelta, como demuestran DAPO y Dr. GRPO. La relación entre el RL basado en resultados, la fidelidad de la cadena de pensamiento y la capacidad de monitoreo también está sin resolver: OpenAI encuentra útil el monitoreo de la cadena de pensamiento contra los hackeos de recompensas de frontera, mientras que Anthropic descubre que los modelos de razonamiento a menudo no exponen fielmente los hackeos que explotan.

Por lo tanto, la conclusión práctica es directa. GRPO se entiende mejor como una simplificación creíble del RL de modelos de razonamiento estilo PPO en el lado de la optimización, no como una simplificación del post-entrenamiento de modelos de razonamiento en su totalidad. Cambia cómo se estiman las ventajas y qué huella de memoria conlleva el entrenador. No mide la fidelidad del razonamiento. No valida los verificadores. No inmuniza las mejoras reportadas en los benchmarks contra la contaminación. No le indica a un equipo si la calidad en producción proviene de un mejor razonamiento de muestra única, una mejor búsqueda bajo cómputo en tiempo de prueba o un canal de recompensa manipulable.

OpenTrain puede respaldar la revisión humana especializada para la calibración de verificadores, segmentos adversarios, auditorías de rúbricas y adjudicación de evaluaciones complejas dentro del stack que un equipo ya posee. Comience con el Servicio Gestionado cuando el cuello de botella sea operar el ciclo de revisión, o publique un trabajo cuando el equipo desee contratar directamente.