Anthropic19:46プロンプト活用公式ブログ
AnthropicがIntrospection Adapters研究公開
モデルの安全性を自己診断しやすくなります。
ポイント
- 1ファインチューンで行動記述。
- 2バックドア・セーフガード除去検知。
- 3単一アダプタで汎用。
- 4安全研究に寄与。
Anthropic FellowsがIntrospection Adaptersを発表しました。モデルが訓練で学んだ行動を自己報告します。隠れミスアライメント検知に有効です。
AnthropicがIntrospection Adapters研究公開
ポイント
Anthropic FellowsがIntrospection Adaptersを発表しました。モデルが訓練で学んだ行動を自己報告します。隠れミスアライメント検知に有効です。