OpenTrainブログ | AIトレーニングとデータラベリング

Evaluation systemsJun 10, 20262分で読了

評価データの問題としてのAIレッドチーミング

AIレッドチーミングは、敵対的な調査結果が再現可能な評価データ（脅威モデル、ルーブリック、裁定、漏洩制御、ルーティングの決定など）となったときに有用となります。

記事を読む

Evaluation systemsJun 9, 20261分で読了

プロセス報酬モデルと結果報酬モデル、検証器の信頼性、ベンチマーク転移、報酬ハッキング、ハイブリッド監視を比較し、測定対象の選び方を整理する技術リファレンス。

記事を読む

Post-trainingJun 8, 20262分で読了

GRPOが何を変更し、何を測定しないのか、そしてなぜ検証器の品質、pass@k、汚染管理、人間による監査済みスライスが依然として重要なのかについての技術リファレンス。

記事を読む

Post-trainingJun 4, 20262分で読了

AIフィードバックがポストトレーニングの監視をどこまで拡張できるか、そして人間による目標設定、キャリブレーション、専門家によるレビュー、ホールドアウトがなぜ依然として不可欠なのかを解説します。

記事を読む

Post-trainingJun 3, 20262分で読了

RLHF後にDPOが何を変えるのか、PPOとオンラインデータが依然として重要である理由、そしてなぜ選好の測定が依然として困難な課題であるのかについての技術リファレンス。

記事を読む

Evaluation systemsJun 1, 20262分で読了

LLM ジャッジが本番環境の評価やポストトレーニングにおいて十分に信頼できるのはどのような場合か、またそれらをどのように調整、監査、ゲート制御すべきかについての証拠に基づく技術リファレンス。

記事を読む

Operating guidesMay 22, 20262分で読了

RLHFプログラムを立ち上げるための実践的なフレームワーク：キューの形状定義、観測されたスループットに基づく評価者数の算出、レビューサイクルの予算策定、および週次リフレッシュゲートの運用について解説します。

記事を読む