Amazon で強化学習を使用する SageMaker - Amazon SageMaker

翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。

Amazon で強化学習を使用する SageMaker

強化学習 (RL) は、コンピュータサイエンス、神経科学、心理学などの分野を組み合わせて、アクションに状況をマッピングし数値報酬信号を最大化する方法を決定します。RL における報酬信号のこの概念は、報酬を最大化して罰則を最小化するアクションについて、人間の脳がどのように決定を行うのかに関する神経科学の研究に由来しています。ほとんどの状況において、人間には行うべきアクションに関する明示的な指示は与えられませんが、即時報酬をもたらすアクションと、それらのアクションが将来の状況や結果にどのように影響するかについて学習する必要があります。

RL の問題は、力学系理論に由来するマルコフ決定過程 (MDP) を用いて形式化されます。MDP は、学習エージェントが最終目標を達成しようとするときに、ある期間にわたって遭遇する実際の問題の詳細の概要を取得することを目的としています。学習エージェントは、その環境の現在の状態を判断し、学習エージェントの現在の状態に影響を与える可能性のあるアクションを特定する必要があります。さらに、学習エージェントの目標は、環境の状態と強く相関している必要があります。このように形式化された問題の解決策は、強化学習メソッドとして知られています。

強制学習、教師あり学習、教師なし学習パラダイムの違いとは

機械学習は、教師あり学習、教師なし学習、強化学習という 3 つの異なる学習パラダイムに分けることができます。

教師あり学習では、外部のスーパーバイザがラベル付きサンプルのトレーニングセットを提供します。各サンプルには状況に関する情報が含まれ、カテゴリに属し、属しているカテゴリを識別するラベルが付いています。教師あり学習の目標は、学習データに存在しない状況において正しく予測するために一般化することです。

対照的に、RL はインタラクティブな問題を処理するため、エージェントが遭遇する可能性のあるすべての状況のサンプルを正しいラベルで収集することは不可能です。このタイプの学習は、エージェントが独自の経験から正確に学習し、それに応じて調整できる場合に最も有望です。

教師なし学習では、エージェントはラベル付けされていないデータ内の構造を検出することによって学習します。RL エージェントは、その経験に基づいて構造を検出することからメリットを得る場合がありますが、RL の唯一の目的は報酬信号を最大化することです。

強化学習が重要なのはなぜですか?

RL は、サプライチェーン管理、HVAC システム、工業ロボット、ゲーム人工知能、ダイアログシステム、自動運転車など、大規模で複雑な問題の解決に適しています。RL モデルは、エージェントが実行する各アクションについて報酬や罰則を受ける継続的なプロセスによって学習するため、システムが、動的な環境で、不確実な状況のもと意思決定を行うようトレーニングすることができます。

マルコフ決定プロセス (MDP)

RL は、マルコフ決定プロセス (MDP) というモデルに基づいています。MDP は、連続的な時間ステップで構成されます。各時間ステップには次が含まれます。

環境

RL モデルが動作する領域を定義します。この領域は、実際の環境またはシミュレーターのいずれにも定義されます。たとえば、物理的な道路で物理的な自動運転車をトレーニングする場合は、実際の環境になります。道路を走る自動運転車をモデル化するコンピュータプログラムをトレーニングする場合、シミュレーターになります。

都道府県

将来に関連する、環境と過去のステップに関するすべての情報を指定します。例えば、ロボットが任意の時間ステップで、任意の方向に移動でき、現在の時間ステップのロボットの位置が状態となる RL モデルでは、ロボットがどこにあるか分かっているため、そこに到着するまでのステップを知る必要はありません。

アクション

エージェントが行うことです。たとえば、ロボットは前進というアクションを実行します。

報酬

エージェントが取った最後のアクションに起因する状態の値を表す数値。たとえば、目標が、ロボットが宝物を見つけることである場合、宝物を見つけた場合の報酬は 5 となり、宝物を見つけられない場合の報酬は 0 となります。RL モデルは、長期にわたる累積的な報酬を最適化する戦略を見つけようと試みます。この戦略はポリシーと呼ばれます。

監視結果

各ステップでエージェントが使用できる環境の状態に関する情報。これは全体的な状態、または状態の一部のみの場合があります。たとえば、チェスを指すモデルのエージェントは、任意のステップでボードの全体的な状態を監視できる可能性がありますが、迷宮内のロボットは、現在占有する迷宮のごく一部の監視しかできない可能性があります。

通常、RL のトレーニングは数多くのエピソードで構成されています。1 つのエピソードは、初期状態から環境が終了状態に到達するまでの、MDP のすべての時間ステップで構成されます。

Amazon SageMaker RL の主な特徴

RL で SageMaker RL モデルをトレーニングするには、次のコンポーネントを使用します。

  • ディープラーニング (DL) フレームワーク。現在、 は TensorFlow および Apache MXNet の RL SageMaker をサポートしています。

  • RL ツールキット。RL ツールキットは、エージェントと環境間の相互関係を管理し、幅広い最先端の RL アルゴリズムを提供します。 SageMaker は、IntelCoach ツールキットと Ray RLlib ツールキットをサポートしています。Intel Coach の詳細については、https://nervanasystems.github.io/coach/ を参照してください。Ray RLlib の詳細については、https://ray.readthedocs.io/en/latest/rllib.html を参照してください。

  • RL 環境。カスタム環境、オープンソース環境、商用環境を使用できます。詳細については、Amazon の RL 環境 SageMaker を参照してください。

次の図は、RL でサポートされている SageMaker RL コンポーネントを示しています。

強化学習サンプルノートブック

完全なコード例については、 SageMaker 「例」リポジトリの「強化学習サンプルノートブック」を参照してください。