推論システムにおけるプロセス報酬モデルと結果報酬モデルの比較

プロセス報酬モデルと結果報酬モデル、検証器の信頼性、ベンチマーク転移、報酬ハッキング、ハイブリッド監視を比較し、測定対象の選び方を整理する技術リファレンス。
技術的な問いの本質は、抽象的なレベルでプロセス報酬モデル(PRM)が結果報酬モデル(ORM)を凌駕するかどうかではありません。トレーニングや評価のパイプラインが、回答の正しさ、推論過程の正しさ、探索の有用性、あるいはその3つのハイブリッドのどれを測定しようとしているのかという点にあります。
近年の研究により、「PRMは密度が高いため優れている」という単純な説明を維持することは困難になっています。プロセス監視に関する基礎的な論文では、数学的なタスクにおける明確な利点や、中間的なエラーのよりクリーンな診断が示されています。一方で、新しいマルチドメイン比較、検証器(verifier)に関する論文、および報酬ハッキングの報告では、ステップラベルにノイズが多い場合や、推論過程が利用できない、あるいは信頼できない場合、そしてベンチマークが論理的な推論よりも最終的な正解を重視する場合、結果ベースや検証器ベースのセットアップがPRMと同等か、それ以上の性能を発揮できることが示されています。
正当な選択とは、イデオロギーに依存するものではなく、目的に依存するものです。
比較における目的の不一致
監視ターゲットのレベルにおいて、PRMとORMは異なる推定問題を解決しています。全推論過程に付随するORMや回答検証器は、通常、最終的な回答や完了した回答を受け入れるべきかどうかを問われます。一方、PRMは、最終的な回答が判明する前にトレーニングや探索がクレジットを割り当てられるよう、プレフィックス、ステップ、または中間的な主張をスコアリングすることを求められます。
その違いは重要です。なぜなら、同じ軌跡であっても、結果は正しくてもプロセスが不健全である場合や、計算の些細なミスにより最終的な答えは間違っていてもプロセスは概ね健全である場合があるからです。UesatoらはGSM8Kにおいてこの区別を明確にしました。純粋な結果ベースの監視では、より少ない監視で最終回答の誤り率が同程度に達した一方、プロセスベースの監視では、最終回答が正解である解の中での推論エラーを14.0%から3.4%に削減しました。OpenAIによるその後のMATHの研究は、プロセス監視モデルがMATHの代表的なサブセットで78%を解くことを示し、同じ点をより明確にしました。この結果は、多段階の数学的信頼性におけるプロセス監視を裏付けるものです。これは、あらゆる推論監視に関する普遍的な定理ではありません。
AIフィードバックはレビューを拡張できますが、独立した測定が依然としてターゲットを定義します。
| パイプラインファミリー | 人間が依然として提供するもの | スケーラブルなAIフィードバックとは | 代替できないもの |
|---|---|---|---|
| 主なフィードバックソース | 人間のラベルとルーブリックによる判断。 | AIが生成したランキング、批評、または評価。 | 人間による目的の定義と最終的な測定。 |
| 最適な用途 | 曖昧な好みの根拠付け。 | 中間監督のスケーリング。 | ホールドアウトおよびエッジケースでの検証。 |
| 失敗モード | コストや時間がかかるレビューサイクル。 | 合成評価者がグラウンドトゥルースとなる。 | 独立した人間による監査が依然として必要。 |
| 運用管理 | キャリブレーションと裁定。 | 診断およびデータカバレッジチェックの判定。 | 重要なスライスに対する専門家によるレビュー。 |
主なフィードバックソース
- 人間が依然として提供するもの
- 人間のラベルとルーブリックによる判断。
- スケーラブルなAIフィードバックとは
- AIが生成したランキング、批評、または評価。
- 代替できないもの
- 人間による目的の定義と最終的な測定。
最適な用途
- 人間が依然として提供するもの
- 曖昧な好みの根拠付け。
- スケーラブルなAIフィードバックとは
- 中間監督のスケーリング。
- 代替できないもの
- ホールドアウトおよびエッジケースでの検証。
失敗モード
- 人間が依然として提供するもの
- コストや時間がかかるレビューサイクル。
- スケーラブルなAIフィードバックとは
- 合成評価者がグラウンドトゥルースとなる。
- 代替できないもの
- 独立した人間による監査が依然として必要。
運用管理
- 人間が依然として提供するもの
- キャリブレーションと裁定。
- スケーラブルなAIフィードバックとは
- 診断およびデータカバレッジチェックの判定。
- 代替できないもの
- 重要なスライスに対する専門家によるレビュー。
OpenTrain PRM、ORM、検証者、および報酬ハッキングのソースパッケージからの統合。
最近の最も強力な理論的反論は、結果の監視(outcome supervision)が根本的に困難であるという考え方に対しても向けられています。Jiaらは、標準的なデータカバレッジの仮定の下では、結果の監視を通じた強化学習は、ホライゾンにおける多項式因子の範囲内であれば、プロセス監視よりも統計的に難しいということはないと主張しています。これは実務においてORMが優れていることを証明するものではありません。しかし、ステップごとの報酬が自動的に最も原則的な選択肢であると仮定するための一般的な理論的根拠を取り除くものです。
現在のエビデンスが示すこと
プロセス監視の優位性が依然として最も強いのは、アノテーターや自動化された手順によってどのステップで最初に誤りが発生したかを特定できる、検証可能な限定的なマルチステップドメインです。OpenAIの「Let’s Verify Step by Step」が依然として規範的である理由は、MATHにおいてプロセス監視による大きな向上が示され、80万件のステップレベルのラベルを含むPRM800Kが公開されたためです。Math-Shepherdは、自動的に導出されたプロセス監視がベースとなる推論モデルを実質的に改善できることを示し、GSM8KではMistral-7Bのスコアを77.9%から84.1%へ、MATHでは28.6%から33.0%へと引き上げました。さらにMath-Shepherdベースの検証により、これらの数値は89.1%および43.5%まで向上しました。
ThinkPRMは、生成型PRMがPRM800Kのラベルのわずか1%を使用するだけでLLM-as-a-judgeや識別型検証器を上回る可能性があることを示し、この流れを拡張しました。また、GPQA-DiamondやLiveCodeBenchにおいてドメイン外での向上も確認されています。FoVerは、形式検証を通じてプロセスラベルを合成することで、ラベルコストと転移学習の課題に取り組みました。
しかし、新しいエビデンスの基盤は、PRMの包括的な主張に対してはるかに厳しいものです。3,400件の専門家によるアノテーション済みテストケースに基づいて構築されたProcessBenchは、既存のPRMがGSM8KやMATHの領域を超えて汎化することに失敗することが多いと報告しています。6,216件の問題と83,456件のステップレベルのラベルを持つPRMBenchは、暗黙的なプロセスエラーに対して重大な弱点があることを明らかにしました。Qwenチームの回顧録は、運用面からの批判を加えています。モンテカルロ法による合成ステップラベリングはLLM-judgeや人間のアノテーションよりも性能が低く、また従来のbest-of-N評価では、ポリシーモデルが最終的な回答は正しいもののプロセスに欠陥がある応答を生成することが多いため、PRMのスコアが過大評価される可能性があると指摘しています。
最近の経験的結果は、PRMとORMの比較をより明確にしています。
| 論文またはシステム | ドメイン | 結果 | 重要な理由 |
|---|---|---|---|
| Uesato et al. | GSM8K | プロセスフィードバックにより、正解に至った回答における推論エラーが14.0%から3.4%に減少しました。 | プロセスラベルは、最終回答のチェックでは見逃される欠陥を明らかにすることができます。 |
| ステップバイステップで検証しよう | MATH | プロセス監視型モデルは、代表的なMATHサブセットにおいて78%の正解率を達成しました。 | PRMの基礎的な結果は強力ですが、ドメイン固有のものです。 |
| Math-Shepherd | GSM8K / MATH | プロセスRLと検証ツールは、両方のベンチマークでMistral-7Bを改善しています。 | タスクがステップごとに検証可能な場合、自動化されたプロセス監視が役立ちます。 |
| ProcessBench / PRMBench | 数学的推論 | 現在のPRMは転移性能が弱く、暗黙的で微細なプロセスエラーを見逃す傾向があります。 | PRMのベンチマークでの勝利は、堅牢なプロセスエラー検出を意味するものではありません。 |
| xVerify | 推論評価 | 回答検証テストセットにおいて95%を超えるF1スコアと精度を報告。 | 強力な結果検証は、結果重視の設計をより競争力のあるものにすることができます。 |
| 検証可能なプロセス監視 | チェスの推論 | 精度のみを重視したRLは着手は改善しましたが、推論の質は低下しました。ハイブリッドなVPSは精度を維持しつつ、一貫性を向上させました。 | ターゲットが誤っている場合、回答の獲得は軌道の質を低下させる可能性があります。 |
| マルチRM比較 | 14のドメイン | 生成型ORMが全体として最も堅牢であり、識別型ORMは識別型PRMと同等のパフォーマンスを示しました。 | 最も広範な比較においても、PRMが普遍的に優れているとは言えません。 |
Uesato et al.
- ドメイン
- GSM8K
- 結果
- プロセスフィードバックにより、正解に至った回答における推論エラーが14.0%から3.4%に減少しました。
- 重要な理由
- プロセスラベルは、最終回答のチェックでは見逃される欠陥を明らかにすることができます。
ステップバイステップで検証しよう
- ドメイン
- MATH
- 結果
- プロセス監視型モデルは、代表的なMATHサブセットにおいて78%の正解率を達成しました。
- 重要な理由
- PRMの基礎的な結果は強力ですが、ドメイン固有のものです。
Math-Shepherd
- ドメイン
- GSM8K / MATH
- 結果
- プロセスRLと検証ツールは、両方のベンチマークでMistral-7Bを改善しています。
- 重要な理由
- タスクがステップごとに検証可能な場合、自動化されたプロセス監視が役立ちます。
ProcessBench / PRMBench
- ドメイン
- 数学的推論
- 結果
- 現在のPRMは転移性能が弱く、暗黙的で微細なプロセスエラーを見逃す傾向があります。
- 重要な理由
- PRMのベンチマークでの勝利は、堅牢なプロセスエラー検出を意味するものではありません。
xVerify
- ドメイン
- 推論評価
- 結果
- 回答検証テストセットにおいて95%を超えるF1スコアと精度を報告。
- 重要な理由
- 強力な結果検証は、結果重視の設計をより競争力のあるものにすることができます。
検証可能なプロセス監視
- ドメイン
- チェスの推論
- 結果
- 精度のみを重視したRLは着手は改善しましたが、推論の質は低下しました。ハイブリッドなVPSは精度を維持しつつ、一貫性を向上させました。
- 重要な理由
- ターゲットが誤っている場合、回答の獲得は軌道の質を低下させる可能性があります。
マルチRM比較
- ドメイン
- 14のドメイン
- 結果
- 生成型ORMが全体として最も堅牢であり、識別型ORMは識別型PRMと同等のパフォーマンスを示しました。
- 重要な理由
- 最も広範な比較においても、PRMが普遍的に優れているとは言えません。
OpenTrain 引用された一次資料からの統合。指標は異種混合であり、直接比較可能なパーセンテージとして解釈すべきではありません。
検証器(Verifier)の存在が、PRM対ORMという単純な構図を複雑にしています。生成型検証器(Generative Verifiers)は、報酬モデリングを次トークン予測として再定義し、アルゴリズムや数学的推論タスクにおいて、標準的な検証器と比較してBest-of-Nで大きな向上を報告しています。xVerifyは、長い推論トレースにおける最終回答の抽出と等価性に焦点を当てています。実際、議論の大部分は検証器の設計に関するものであり、不十分な結果検証器(Outcome Verifiers)がPRMを必要不可欠に見せている一方、強力な回答検証パイプラインは結果監視(Outcome Supervision)をはるかに競争力のあるものにしています。
測定スタックは脆弱である
最初の脆弱性はラベルの品質です。PRMはより密度の高いクレジット割り当てを約束しますが、その性能はステップの境界と局所的な正誤ラベルの質に依存します。DeepSeek-R1は、一般的な推論における細かいステップ定義の難しさ、中間ステップの正しさの判断の難しさ、そしてモデルベースのPRM導入後の報酬ハッキングという、3つの実用的なPRMの限界を挙げています。Qwenの回顧録もデータ面から同様の結論に達しており、モンテカルロ法によるステップのラベル付けはステップを不正確に検証し、下流の評価にバイアスをかける可能性があると論じています。
2つ目の脆弱性は評価者間の一致度です。報酬モデリングや判定モデルは、オラクル(絶対的な正解)に対して実行されるわけではありません。RMBの報告によると、人間の選好ラベルの一致度は通常70%から80%程度が上限であり、同社のデータや先行する報酬ベンチマークでは、ラベルと人間のアノテーター間の一致度は約75%であることが示されています。「No Free Labels」は、この指摘を正解重視の判定にまで広げており、専門家が作成した参照データは、ビジネスや金融に関する質問における判定の信頼性を大幅に向上させると述べています。
3つ目の脆弱性は、思考の連鎖(Chain-of-Thought)の可用性と忠実性です。一部の推論スタックは、生の推論トレースを外部ユーザーに公開していません。OpenAIの推論要約に関するドキュメントでは、生の思考の連鎖トークンは公開されず、要約のみが公開されると述べられています。トレースが利用可能な場合でも、Anthropicは推論モデルが常に考えていることをそのまま出力するとは限らないと報告しており、OpenAIの思考の連鎖モニタリングに関する研究では、最適化の圧力が難解な報酬ハッキングを生み出す可能性があることが示されています。
4つ目の脆弱性はベンチマークの転移性です。ProcessBenchとPRMBenchはどちらも、チームが実際にデプロイする環境よりも簡単または狭い分布でPRMを検証するという、この分野の習慣に対する反応です。MathArenaは、新たに公開された数学コンテストで評価を行い、AIME 2024における汚染の兆候を報告することで、別の角度から同じ指摘をしています。
失敗モードは対称ではない
結果のみの最適化は、推論を劣化させながら回答を改善してしまう可能性があります。Kimらによる検証可能なプロセス監督に関する論文では、チェスを例にこれを明確に示しています。精度のみを重視したRLは、着手の精度は向上させましたが、推論の質を悪化させ、勝率エラーを最大112%増加させ、内部整合性を最大69%低下させました。彼らのVPSハイブリッド手法は、精度を維持しつつ勝率エラーを最大30%削減し、整合性を飽和状態に近いレベルまで回復させました。
プロセスレベルまたは検証者レベルの最適化も、誤った自信を生み出す可能性があります。Qwenの回顧録では、Best-of-N評価が、正解ではあるがプロセスに欠陥があるトレースを報酬として与えてしまいました。LLMのGaming Verifiersでは、帰納的推論でRLVR学習されたモデルがルール帰納を放棄し、代わりにリレーショナルルールを学習することなく検証者を通過するインスタンスレベルのラベルを列挙するようになりました。
ルーブリックに基づくオープンエンド型の報酬パイプラインには、第3の失敗モードが存在します。それは、検証器がトレーニングルーブリックに対して強力であっても、誤った対象を最適化してしまう可能性があるという点です。近年のルーブリックを用いたRLの研究では、検証器の失敗とルーブリック設計の限界を切り分け、より強力な検証器であっても搾取を軽減することはできるが排除はできないことを示しています。報酬モデルに関する広範な文献では、長年にわたりこの点について警告がなされてきました。つまり、代理報酬を過剰に最適化することは、ゴールドスタンダードのパフォーマンスを損なう可能性があるということです。
PRM、ORM、またはハイブリッドなフィードバックの信頼性を決定づける失敗モード。
| 失敗モード | 最も影響を受ける箇所 | 損なわれるもの | スケール前の制御 |
|---|---|---|---|
| 正解だがプロセスに欠陥がある | 結果のみに基づく報酬 | モデルは不適切な推論過程を通じて、許容可能な回答に到達することを学習してしまう。 | 正解サンプルに対してプロセス監査を追加する。 |
| ノイズの多い、または合成されたステップラベル | プロセス報酬モデル | 密なクレジット割り当ては、局所的なラベル付けのミスを増幅させる。 | ステップラベルの一致度を測定し、専門家による判定セグメントを保持する。 |
| 検証器のハッキング(Verifier gaming) | ORM、PRM、およびハイブリッド | 最適化されたポリシーは、評価者を満足させるアーティファクトを学習します。 | 非公開のホールドアウトと、報酬ハッキングに対する敵対的チェックを使用します。 |
| 不誠実または利用不可能なトレース | プロセス監視 | 可視化されたチェーンは、監視するには信頼性が不十分です。 | トレースの忠実性が検証されない限り、PRMスコアは内部プロキシとして扱ってください。 |
正解だがプロセスに欠陥がある
- 最も影響を受ける箇所
- 結果のみに基づく報酬
- 損なわれるもの
- モデルは不適切な推論過程を通じて、許容可能な回答に到達することを学習してしまう。
- スケール前の制御
- 正解サンプルに対してプロセス監査を追加する。
ノイズの多い、または合成されたステップラベル
- 最も影響を受ける箇所
- プロセス報酬モデル
- 損なわれるもの
- 密なクレジット割り当ては、局所的なラベル付けのミスを増幅させる。
- スケール前の制御
- ステップラベルの一致度を測定し、専門家による判定セグメントを保持する。
検証器のハッキング(Verifier gaming)
- 最も影響を受ける箇所
- ORM、PRM、およびハイブリッド
- 損なわれるもの
- 最適化されたポリシーは、評価者を満足させるアーティファクトを学習します。
- スケール前の制御
- 非公開のホールドアウトと、報酬ハッキングに対する敵対的チェックを使用します。
不誠実または利用不可能なトレース
- 最も影響を受ける箇所
- プロセス監視
- 損なわれるもの
- 可視化されたチェーンは、監視するには信頼性が不十分です。
- スケール前の制御
- トレースの忠実性が検証されない限り、PRMスコアは内部プロキシとして扱ってください。
OpenTrain ProcessBench、PRMBench、Qwen PRM、DeepSeek-R1、検証可能なプロセス監視、および報酬ハッキングレポートからの統合。
フロンティアの実践は条件付きに見える
公開されている証拠は、最先端の推論スタックが可能な限り検証可能な結果報酬(outcome rewards)をデフォルトとし、必要に応じて構造や判定器を追加していることを示唆しています。DeepSeek-R1はその最も明確な公開事例です。R1-Zeroにおいて、DeepSeekは主に正確性報酬と形式報酬からなるルールベースの報酬システムを使用しており、ニューラルな結果報酬モデルやプロセス報酬モデルは適用しなかったと述べています。その理由は、それらのモデルが報酬ハッキングに陥る可能性があり、再学習が必要で、パイプラインを複雑にするためです。
これはPRMが時代遅れであることを意味するわけではありません。大規模なRLにおいて、主要な推論研究機関が「検証可能な結果+形式の制約」を「まずPRMを学習させる」ことよりも優先したという事実を示しています。
OpenAIの公開されている推論レポートも同様の方向性を示していますが、報酬スタックに関する詳細は少なくなっています。o1の資料では、思考の連鎖(chain-of-thought)に対する大規模な強化学習と、学習時および推論時の計算スケーリングについて説明されていますが、PRMを中心とした本番環境向けのレシピは公開されていません。妥当な推論としては、最先端の挙動は「汎用的なPRMをデプロイする」ことよりも、「強力な内部推論トレース、利用可能な場合は信頼性の高い自動チェック、そしてそれらを取り囲む階層的な監視や判定システムを使用する」ことに重点が置かれています。
もう一つの公開トレンドとして、研究機関は生成器だけでなく評価器にもより多くの計算リソースを費やそうとしています。最近の検証器に関する研究では、推論モデルがより多くの検証用計算リソースを受け取るにつれて、評価器の性能が向上することが示されています。実用的な比較対象は、安価なスカラーのプロセススコア、安価なスカラーの結果スコア、そして構造化されたプロンプトを用いた高コストな推論検証器の間で、ますます重要になっています。
ハイブリッド設計こそが現実的な中間地点
検証が厳密なドメインにおいて最終的な合格のみを重視するチームは、結果または検証器を優先する教師あり学習をデフォルトにすべきです。DeepSeek-R1、xVerify、および検証器ベースのbest-of-Nの結果はすべて、そのパターンを裏付けています。
軌跡の質そのものを重視するチームは、回答のみの向上を証拠として受け入れるべきではありません。教育、個別指導、定理証明、安全性が重視される計画立案、モデル監視といったケースでは、多くの場合、最初の誤り、自己修正の挙動、そして中間的な主張が検証可能かどうかが重要視されます。そのような環境では、PRMや構造化されたプロセス評価器は依然として妥当ですが、それはチームがステップを首尾一貫して定義し、人間が監査したデータセットを維持し、追加のラベル付けコストを正当化できる十分な評価者間の一致を示せる場合に限られます。
多くの実システムにとって、ハイブリッドな監視が最も妥当な回答です。「Outcome Accuracy Is Not Enough(結果の精度だけでは不十分)」は、結果の精度に論理的な一貫性を加え、最先端の報酬モデルおよび評価ベンチマークの性能を報告しています。検証可能なプロセス監視は、構造化されたプロセス報酬と結果の精度を組み合わせることで、精度のみを重視するRLで見られる推論品質の低下を回避します。CorVerは、事実に基づくQAに対して、より軽量な文レベルのプロセス報酬を追加します。
これらは同一の手法ではありませんが、同じ方向を向いています。つまり、チームが回答の質と軌跡の質の両方を必要とする場合、純粋なPRMや純粋なORMという教条よりも、ハイブリッドなシグナルの方がより信頼性を高めています。
運用の要点は限定的ですが堅牢です。PRMは、チームが推論過程、ステップラベル、およびベンチマークを信頼できる場合に、軌道の品質を測定および改善するためのツールです。ORMおよび回答検証ツールは、最終的な正確性が重要であり、かつ検証が強力である場合の受け入れツールです。両方の条件が満たされる場合、ハイブリッド設計が妥当なデフォルトとなります。
決定的な変数は、単なる粒度の細かさではありません。監督対象が、チームが実際にコストをかけて制御しようとしている失敗モードと一致しているかどうかです。
OpenTrain は、検証者のキャリブレーション、プロセスラベルの監査、ルーブリックのQA、敵対的スライス、および難易度の高い評価の判定といった専門的な人間によるレビューを、チームが既に所有しているスタック内でサポートできます。レビューサイクルの運用がボトルネックとなっている場合はマネージドサービスから開始するか、直接雇用を希望する場合は求人を投稿してください。
ソース
- Let’s Verify Step by Step
- Solving math word problems with process- and outcome-based feedback
- Math-Shepherd
- ProcessBench
- PRMBench
- 数学的推論におけるプロセス報酬モデル開発の教訓
- 数学的推論における効果的なプロセス監視に向けて
- 思考するプロセス報酬モデル
- ステップバイステップで検証する必要はあるか?
- RewardBench 2
- RMB: LLM アライメントにおける報酬モデルの包括的ベンチマーク
- No Free Labels
- xVerify
- 結果の正確性だけでは不十分
- 検証可能なプロセス監督
- FoVer
- DeepSeek-R1
- LLMで推論を学習する
- 推論の要約に関するドキュメント
- 推論モデルは常に考えていることを口にするとは限らない
- 推論モデルの不正動作の監視
- LLMs Gaming Verifiers
- Reward Hacking in Rubric-Based Reinforcement Learning
- CorVer
- MathArena
- Rethinking Reward Models for Multi-Domain Test-Time Scaling
- Scaling Laws for Reward Model Overoptimization