品質確認の時間も短縮、ルンバも使ったクラウドシミュレーターの可能性とは

強化学習:エージェント(Agent) がアクション(Action) を起こし、これによって引き起こされたエージェント周りの環境変化をステート(State)として、アクションの良しあしを報酬(Reward) としてエージェントに返す。報酬を決める処理を報酬関数と呼び、これはあらかじめ定義しておいたルールに従ってアクションの良しあしの点数付けをします(C) 2020, Amazon Web Services, Inc. or its affiliates. All rights reserved.

強化学習:エージェント(Agent) がアクション(Action) を起こし、これによって引き起こされたエージェント周りの環境変化をステート(State)として、アクションの良しあしを報酬(Reward) としてエージェントに返す。報酬を決める処理を報酬関数と呼び、これはあらかじめ定義しておいたルールに従ってアクションの良しあしの点数付けをします(C) 2020, Amazon Web Services, Inc. or its affiliates. All rights reserved.