AIは強化学習で“人間のだまし方”を学ぶ──RLHFの副作用、海外チームが24年に報告　「正解っぽい回答」を出力

長文理解のための質問応答データセットによる、RLHF前（青）とRLHF後（黄色）のAIモデルにおける、人間の承認率（左）、実際の性能（中央）、人間のエラー率（右）を表した図

記事に戻る