第2回 AIの強化学習の基礎を学ぼう

図11 トレーニングアルゴリズム「Vanilla policy gradient」(ワークショップより)