第2回　AIの強化学習の基礎を学ぼう

図11　トレーニングアルゴリズム「Vanilla policy gradient」（ワークショップより）

記事に戻る

一色政彦，デジタルアドバンテージ