Anthropic20:18プレスリリース公式ブログ
Model Spec Midtrainingでアライメント一般化向上
AIの新しい状況での正しい行動を確実にします。
ポイント
- 1スペック理解で一般化制御
- 2エージェント誤動作大幅低減
- 3微調整データ10-60倍効率化
- 4値説明でポリシー誤用防止
AnthropicがModel Spec Midtraining(MSM)を発表。事前訓練後にスペックを説明する合成文書で訓練し、アライメント微調整の一般化を制御します。エージェント誤動作を68%から5%に低減。トークン効率も10-60倍向上します。