たった1文で15のLLMのガードレールを無効化した手法、Microsoftが公開

GRP-Obliterationの仕組み。有害な出力を「正解」として学習させることでガードレールを弱体化させる（提供：Microsoft）

記事に戻る