第2回 AIの強化学習の基礎を学ぼう
図11 トレーニングアルゴリズム「Vanilla policy gradient」(ワークショップより)
記事に戻る
一色政彦,デジタルアドバンテージ