ChatGPTやInstructGPTはなぜユーザーの意図に沿った返答を生成できるのか?

InstructGPTにおけるRLHF『Aligning Language Models to Follow Instructions』より引用。

InstructGPTにおけるRLHF『Aligning Language Models to Follow Instructions』より引用。