Amazon SageMaker での強化学習の使用 - Amazon SageMaker

翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。

Amazon SageMaker での強化学習の使用

強化学習(RL)は、計算機科学、神経科学、心理学などの分野を組み合わせて、状況を行動にマッピングする方法を決定し、数値的な報酬信号を最大化します。RLにおける報酬シグナルのこの概念は、人間の脳がどのように報酬を最大化し、罰を最小限に抑えるかについての決定を下すかについての神経科学研究に由来しています。ほとんどの状況では、人間はどの行動を取るべきかについて明示的な指示を与えられず、代わりにどの行動が最も即時の報酬をもたらすか、それらの行動が将来の状況や結果にどのように影響するかを学ばなければならない。

RLの問題は、力学系理論に由来するマルコフ決定過程 (MDP) を用いて形式化される。MDP は、学習エージェントがいくつかの最終的な目標を達成しようとするときに、ある期間に遭遇する実際の問題の高レベルな詳細をキャプチャすることを目指しています。ラーニングエージェントは、環境の現在の状態を判断し、ラーニングエージェントの現在の状態に影響する可能性のあるアクションを特定できる必要があります。さらに、学習エージェントの目標は環境の状態と強く相関する必要があります。このように定式化された問題に対する解は、強化学習法として知られています。

強化学習パラダイム、教師あり学習パラダイム、教師なし学習パラダイムの違いは何ですか?

機械学習は、教師付き、教師なし、強化学の 3 つの異なる学習パラダイムに分けることができます。

教師あり学習では、外部のスーパーバイザは、ラベル付きの例のトレーニングセットを提供します。各例には、状況に関する情報が含まれ、カテゴリに属し、それが属するカテゴリを識別するラベルがあります。教師あり学習の目的は、トレーニングデータに存在しない状況で正しく予測するために一般化することです。

対照的に、RL は対話型の問題を扱い、エージェントが遭遇する可能性のある正しいラベルを持つ状況のすべての可能な例を収集することは不可能になります。このタイプの学習は、エージェントが自分の経験から正確に学び、それに応じて調整できる場合に最も有望です。

教師なし学習では、エージェントはラベルなしデータ内の構造を明らかにすることによって学習します。RLエージェントは、その経験に基づいて構造を明らかにすることで恩恵を受けるかもしれませんが、RLの唯一の目的は、報酬信号を最大化することです。

強化学習が重要なのはなぜですか?

RL は、サプライチェーン管理、HVAC システム、産業ロボット、ゲーム人工知能、ダイアログシステム、自動運転車など、大規模で複雑な問題の解決に最適です。RL モデルは、エージェントが実行する各アクションについて報酬や罰則を受ける継続的なプロセスによって学習するため、システムが、動的な環境で、不確実な状況のもと意思決定を行うようトレーニングすることができます。

マルコフ決定プロセス (MDP)

RL は、マルコフ決定プロセス (MDP) というモデルに基づいています。MDP は、連続的な時間ステップで構成されます。各時間ステップには次が含まれます。

環境

RL モデルが動作する領域を定義します。この領域は、実際の環境またはシミュレーターのいずれにも定義されます。たとえば、物理的な道路で物理的な自動運転車をトレーニングする場合は、実際の環境になります。道路を走る自動運転車をモデル化するコンピュータプログラムをトレーニングする場合、シミュレーターになります。

将来に関連する、環境と過去のステップに関するすべての情報を指定します。たとえば、ロボットが任意の時間ステップで、任意の方向に移動でき、現在の時間ステップのロボットの位置が状態となる RL モデルでは、ロボットがどこにあるか分かっているため、そこに到着するまでのステップを知る必要はありません。

アクション

エージェントが行うことです。たとえば、ロボットは前進というアクションを実行します。

報酬

エージェントが取った最後のアクションに起因する状態の値を表す数値。たとえば、目標が、ロボットが宝物を見つけることである場合、宝物を見つけた場合の報酬は 5 となり、宝物を見つけられない場合の報酬は 0 となります。RL モデルは、長期にわたる累積的な報酬を最適化する戦略を見つけようと試みます。この戦略はポリシーと呼ばれます。

監視結果

各ステップでエージェントが使用できる環境の状態に関する情報。これは全体的な状態、または状態の一部のみの場合があります。たとえば、チェスを指すモデルのエージェントは、任意のステップでボードの全体的な状態を監視できる可能性がありますが、迷宮内のロボットは、現在占有する迷宮のごく一部の監視しかできない可能性があります。

通常、RL のトレーニングは数多くのエピソードで構成されています。1 つのエピソードは、初期状態から環境が終了状態に到達するまでの、MDP のすべての時間ステップで構成されます。

Amazon SageMaker RL の主な特徴

SageMaker RL の RL モデルをトレーニングするには、次のコンポーネントを使用します。

  • ディープラーニング (DL) フレームワーク。現在、SageMaker では、TensorFlow と Apache MXNet の RL がサポートされています。

  • RL ツールキット。RL ツールキットは、エージェントと環境間の相互関係を管理し、幅広い最先端の RL アルゴリズムを提供します。SageMaker は Intel Coach および Ray RLlib ツールキットをサポートしています。Intel Coach の詳細については、https://nervanasystems.github.io/coach/ を参照してください。Ray RLlib の詳細については、https://ray.readthedocs.io/en/latest/rllib.html を参照してください。

  • RL 環境。カスタム環境、オープンソース環境、商用環境を使用できます。詳細については、Amazon SageMaker の RL 環境 を参照してください。

以下の図は、SageMaker RL でサポートされている RL コンポーネントを示しています。

強化学習のサンプルノート

次の表に、Amazon SageMaker 強化学習のさまざまなユースケースに対応するさまざまなサンプルノートブックの概要を示します。

ノートブックのタイトル 説明

Batch RLポリシーをトレーニングする方法

このノートブックでは、バッチ RL を使用して、オフラインデータセットから新しいポリシーをトレーニングする方法について説明します。

カートポールバランシングの問題を解決するには?

このノートブックは、RLでカートポールバランス問題を解決する方法を示しています。

ナップサック問題を解決するには?

このノートブックは、ナップサック問題を解決するためにRLを使用する方法と、SageMaker マネージドスポットトレーニングを使用すると、低コストでトレーニングを実行できます。

マウンテンカーの問題を解決するには?

このノートブックは、RLでマウンテンカーの制御問題を解決する方法を示しています。