たった1文で15のLLMのガードレールを無効化した手法、Microsoftが公開

gpt-oss-20Bにおける、単一プロンプト学習前後のカテゴリー別の安全性ヒートマップで赤い箇所ほど有害出力の増加を意味する(提供:Microsoft)