Anthropic、AI「Claude」に“核兵器への悪用”を防ぐシステム実装

合成された会話に対する分類器の評価と既知の状態の比較図。真陰性はすべて正しく、真陽性はほぼ95%正しく評価されていることを示す。全体的な精度は、正しく予測されたラベルの合計割合を反映している