品質確認の時間も短縮、ルンバも使ったクラウドシミュレーターの可能性とは

強化学習：エージェント（Agent）がアクション（Action）を起こし、これによって引き起こされたエージェント周りの環境変化をステート（State）として、アクションの良しあしを報酬（Reward）としてエージェントに返す。報酬を決める処理を報酬関数と呼び、これはあらかじめ定義しておいたルールに従ってアクションの良しあしの点数付けをします（C） 2020, Amazon Web Services, Inc. or its affiliates. All rights reserved.

強化学習：エージェント（Agent）がアクション（Action）を起こし、これによって引き起こされたエージェント周りの環境変化をステート（State）として、アクションの良しあしを報酬（Reward）としてエージェントに返す。報酬を決める処理を報酬関数と呼び、これはあらかじめ定義しておいたルールに従ってアクションの良しあしの点数付けをします（C） 2020, Amazon Web Services, Inc. or its affiliates. All rights reserved.

記事に戻る