AIは強化学習で“人間のだまし方”を学ぶ──RLHFの副作用、海外チームが24年に報告 「正解っぽい回答」を出力 質問例(左)、従来の解答(中央)、RLHFで訓練したAIの解答 記事に戻る 山下裕毅,ITmedia