OpenAI20:19ポリシー公式ブログ
OpenAIがRL訓練で起きたCoT grading事故を公開し修正
モデル思考の監視可能性が保たれ、安全なエージェント開発がしやすくなります。
ポイント
- 1事故影響はサンプル0.6%未満と微小
- 2第三者機関が分析を検証
- 3検知・予防プロセスを改善
- 4CoT監視を安全レイヤーとして維持
OpenAIはGPT-5シリーズの一部モデルで、強化学習中にモデル自身の思考連鎖を誤って評価していた事故を発見しました。詳細分析で監視可能性への悪影響なしと確認し、自動検知システムを強化。開発者は思考過程の信頼性が維持される点で安心です。