RLHF（人間のフィードバックによる強化学習）とは？

図1　RLHF（Reinforcement Learning from Human Feedback）のイメージ引用論文“Training language models to follow instructions with human feedback”（Long Ouyang, et al. @ OpenAI, arXiv, 2022.）図内にある略語の意味は以下の通り。

図1　RLHF（Reinforcement Learning from Human Feedback）のイメージ引用論文“Training language models to follow instructions with human feedback”（Long Ouyang, et al. @ OpenAI, arXiv, 2022.）図内にある略語の意味は以下の通り。

記事に戻る