AWS DeepRacer ソリューションのワークフロー

AWS DeepRacer モデルのトレーニングには、以下の一般的なタスクが含まれます。

AWS DeepRacer サービスは、仮想トラック、車両に対応するエージェント、背景でシミュレーションを初期化します。エージェントはポリシーニューラルネットワークを具体化します。これは、PPO アルゴリズムで定義されたとおりにハイパーパラメータを使って調整できます。
エージェントは、所定の状態 (フロントカメラからの画像で表す) に基づいて動作します (ステアリング角度と速度で指定)。
シミュレーションされた環境は、エージェントのアクションに基づいてエージェントの位置を更新し、報酬と更新されたカメラ画像を返します。状態、アクション、報酬、新しい状態の形で収集された経験は、ニューラルネットワークを定期的に更新するために使用されます。更新されたネットワークモデルは、より多くの体験を生み出すために使用されます。
エージェントから見た一人称ビューで、シミュレーションされたトラックに沿って進行中のトレーニングを監視できます。エピソードごとの報酬、損失関数値、ポリシーのエントロピーなどのメトリックを表示できます。トレーニングが進むにつれて、CPU またはメモリの使用率も表示できます。さらに、分析とデバッグのため、詳細なログが記録されます。
AWS DeepRacer サービスでは、ニューラルネットワークモデルを定期的に永続的ストレージに保存します。
時間制限に基づいてトレーニングは停止します。
シミュレーターでトレーニングされたモデルを評価できます。評価するには、選択したトラックを選択した回数走行するタイムトライアルに、トレーニング済みモデルを提出します。

モデルが正常にトレーニングされ評価された後、モデルは物理エージェント (AWS DeepRacer 車両) にアップロードされます。このプロセスには、以下のステップが含まれます。

永続的ストレージからトレーニング済みモデルをダウンロードします (Amazon S3 バケット)。
車両のデバイスコントロールコンソールを使用して、デバイスにトレーニング済みモデルをアップロードします。コンソールを使用して、シミュレーションされたアクションスペースを物理的なアクションスペースにマッピングするために車両をキャリブレートします。またコンソールを使用して、スロットルパリティを確認したり、フロントカメラフィードを表示してモデルを推論エンジンにロードしたり、実際のトラックで運転している車両を見ることもできます。

車両のデバイスコントロールコンソールは、車両のコンピューティングモジュールにホストされている Web サーバーです。接続された Wi-Fi ネットワークとコンピュータまたはモバイルデバイスの Web ブラウザを使用して、車両の IP アドレスからコンソールにアクセスできます。
さまざまな照明、バッテリーレベル、表面の質感や色の条件下で、車両の運転を経験します。

モデルの制限やトレーニング不足のために、物理的環境でのデバイスのパフォーマンスがシミュレーション環境でのパフォーマンスと一致しない場合があります。この現象は sim2real パフォーマンスギャップと呼ばれます。ギャップを減らすには、「Simulated-to-Real パフォーマンスギャップ」を参照してください。

ブラウザで JavaScript が無効になっているか、使用できません。

AWS ドキュメントを使用するには、JavaScript を有効にする必要があります。手順については、使用するブラウザのヘルプページを参照してください。

ドキュメントの表記規則

トレーニングアルゴリズム

Simulated-to-Real パフォーマンスギャップ