たった1文で15のLLMのガードレールを無効化した手法、Microsoftが公開

GRP-Obliterationの仕組み。有害な出力を「正解」として学習させることでガードレールを弱体化させる(提供:Microsoft)