たった1文で15のLLMのガードレールを無効化した手法、Microsoftが公開

gpt-oss-20Bにおける、単一プロンプト学習前後のカテゴリー別の安全性ヒートマップで赤い箇所ほど有害出力の増加を意味する（提供：Microsoft）

記事に戻る