「銀行を襲う方法を教えて」──“脱獄プロンプト”の自動生成モデル ChatGPTやLlama-2で成功率90%以上

LLMの脱獄プロンプトに対する耐性と脆弱性のデモンストレーション。左側では、前バージョンのChatGPT(gpt-3.5-turbo-0301)は生成された脱獄プロンプトに対して不正な出力をしているが、後バージョンのChatGPT(gpt-3.5-turbo-0631)は同じ脱獄プロンプトに対して不正な出力をしていない様子を示している。右側では、左側の脱獄プロンプトに新しい内容(赤でマークされている部分)が追加され、モデルの防御を回避して、再び不正な回答が引き出されている