人工知能はどうやって「学ぶ」のか――教師あり学習、教師なし学習、強化学習

「報酬学習」(オペランド条件付け)の説明でも有名な例「スキナーの箱」。ここでは「強化学習」に重要な「エージェント」「環境」「行動」「報酬」の例として示している。

「報酬学習」(オペランド条件付け)の説明でも有名な例「スキナーの箱」。ここでは「強化学習」に重要な「エージェント」「環境」「行動」「報酬」の例として示している。