OpenAI00:00ポリシー公式ブログ
OpenAIがゴブリン言及の原因を公開し抑制策をCodexに追加
モデル癖を自分で抑え、業務コードの安定性を高められます。
ポイント
- 1ゴブリン原因はNerdyパーソナリティの報酬過剰
- 2将来モデルで報酬除去とデータフィルタ
- 3Codexに抑制プロンプト追加
- 4挙動監査手法が実務適用可
GPT-5.1で増えたゴブリンなどの奇妙な言及はトレーニング報酬の偏りでした。原因を特定し、将来モデルで報酬信号を除去・データフィルタリングを実施。Codexでは開発者プロンプトで抑制可能です。モデル挙動監査の手法が学べます。