コンテンツへスキップ
OpenTrain AIAI企業向け

ヒューマンフィードバックの専門家を採用するAIチーム向け技術ノート

RLHF、評価データ、レッドチーミング、報酬モデル、信頼できるヒューマンフィードバックプログラムの裏側にある運用業務についての実践的な読み物。

どの立場ですか?

すべての記事

OpenTrainの記事を対象読者とトピック別に閲覧できます。現在はRLHF、評価データ、レッドチーミング、報酬モデル、プロジェクトのスコープ設定を中心に扱っています。

AIビルダー向け 7 記事

Editorial hero image representing AI red teaming as a structured evaluation-data workflow, with prompts, reviewer notes, and tagged cases rather than a generic cybersecurity scene.
Evaluation systemsJun 10, 20262分で読了

評価データの問題としてのAIレッドチーミング

AIレッドチーミングは、敵対的な調査結果が再現可能な評価データ(脅威モデル、ルーブリック、裁定、漏洩制御、ルーティングの決定など)となったときに有用となります。

記事を読む
Abstract feedback signal nested inside a larger measurement field for process and outcome reward modeling.
Evaluation systemsJun 9, 20261分で読了

推論システムにおけるプロセス報酬モデルと結果報酬モデルの比較

プロセス報酬モデルと結果報酬モデル、検証器の信頼性、ベンチマーク転移、報酬ハッキング、ハイブリッド監視を比較し、測定対象の選び方を整理する技術リファレンス。

記事を読む
Abstract blurred measurement field for GRPO reasoning-model post-training.
Post-trainingJun 8, 20262分で読了

推論モデルのポストトレーニングにおけるGRPO

GRPOが何を変更し、何を測定しないのか、そしてなぜ検証器の品質、pass@k、汚染管理、人間による監査済みスライスが依然として重要なのかについての技術リファレンス。

記事を読む
Abstract frosted-glass calibration field for RLAIF vs RLHF.
Post-trainingJun 4, 20262分で読了

RLAIF対RLHF:AIフィードバックが代替できるもの、できないもの

AIフィードバックがポストトレーニングの監視をどこまで拡張できるか、そして人間による目標設定、キャリブレーション、専門家によるレビュー、ホールドアウトがなぜ依然として不可欠なのかを解説します。

記事を読む
Abstract blurred measurement envelope surrounding a smaller optimization path.
Post-trainingJun 3, 20262分で読了

Direct Preference Optimization対PPO:RLHF後の比較

RLHF後にDPOが何を変えるのか、PPOとオンラインデータが依然として重要である理由、そしてなぜ選好の測定が依然として困難な課題であるのかについての技術リファレンス。

記事を読む
Abstract blurred measurement surfaces with colored calibration light.
Evaluation systemsJun 1, 20262分で読了

LLM ジャッジはオラクルではなく測定システムである

LLM ジャッジが本番環境の評価やポストトレーニングにおいて十分に信頼できるのはどのような場合か、またそれらをどのように調整、監査、ゲート制御すべきかについての証拠に基づく技術リファレンス。

記事を読む
Abstract wave visualization representing RLHF preference data
Operating guidesMay 22, 20262分で読了

RLHFデータプログラムのスコープ設定方法

RLHFプログラムを立ち上げるための実践的なフレームワーク:キューの形状定義、観測されたスループットに基づく評価者数の算出、レビューサイクルの予算策定、および週次リフレッシュゲートの運用について解説します。

記事を読む