Amazon での機械学習の概要 SageMaker - Amazon SageMaker

翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。

Amazon での機械学習の概要 SageMaker

このセクションでは、一般的な機械学習 (ML) ワークフローについて説明し、Amazon でこれらのタスクを実行する方法の概要を説明します SageMaker。

機械学習では、予測や推論を行うようにコンピュータに指示します。まず、アルゴリズムとサンプルデータを使用してモデルをトレーニングします。次に、モデルをアプリケーションに統合して、リアルタイムで、そして大規模に推論を生成します。

次の図は、機械学習モデルを作成するための一般的なワークフローを示しています。以下に詳しく説明する循環フローには、サンプルデータの生成、モデルのトレーニング、モデルのデプロイの 3 つの段階が含まれています。

この図は、最も一般的なシナリオで以下のアクティビティを実行する方法を示しています。

  1. サンプルデータの生成 – モデルをトレーニングするには、サンプルデータが必要です。必要なデータのタイプは、モデルで解決するビジネス上の問題 (モデルに生成させる推論) によって異なります。例えば、手書き数字の入力画像から数値を予測するモデルを作成するとします。そのようなモデルをトレーニングするには、手書き数字のイメージ例が必要です。

    データサイエンティストは、モデルトレーニングに使用する前に、サンプルデータの探索と前処理に時間を費やすことがよくあります。データを事前処理するには、通常、次の操作を実行します。

    1. データの取得 – 社内にサンプルデータリポジトリがある場合や、一般公開されているデータセットを使用する場合があります。通常、データセット (複数可) を 1 つのリポジトリにプルします。

    2. データをクリーンアップする – モデルトレーニングを改善するには、必要に応じてデータを検査してクリーンアップします。例えば、データに値 United Statesと の country name 属性がある場合US、整合性を保つようにデータを編集できます。

    3. データの準備または変換 — パフォーマンスを向上させるために、追加のデータ変換を実行する場合があります。例えば、属性を結合することを選択できます。モデルが温度属性と湿度属性を別々に使用するのではなく、温度属性を新しい属性に結合してより良いモデルを得るための条件を予測できます。

    では SageMaker、統合開発環境 (IDE) の SageMaker Python SDKSageMaker APIs を使用してサンプルデータを前処理できます。SDK for Python (Boto3) を使用すると、モデルトレーニングのためにデータを取得、探索、準備できます。データの準備、処理、変換の詳細については、「」、データの準備処理ジョブを使用してデータ変換ワークロードを実行する「」、および「」を参照してくださいFeature Store で機能を作成、保存、共有する

  2. モデルのトレーニング — モデルトレーニングには、次のように、モデルのトレーニングと評価の両方が含まれます。

    • モデルのトレーニング — モデルをトレーニングするには、アルゴリズムまたは事前トレーニング済みのベースモデルが必要です。選択するアルゴリズムは、さまざまな要因によって異なります。組み込みソリューションの場合、 SageMaker が提供するアルゴリズムのいずれかを使用できます。が提供するアルゴリズムのリスト SageMaker と関連する考慮事項については、「」を参照してくださいAmazon SageMaker 組み込みアルゴリズムまたは事前トレーニング済みモデルを使用する。アルゴリズムとモデルを提供する UI ベースのトレーニングソリューションについては、「SageMaker JumpStart」を参照してください。

      トレーニングのためにコンピューティングリソースも必要です。トレーニングデータセットのサイズと、どれほど早く結果を得る必要があるかに応じて、単一の汎用インスタンスから GPU インスタンスの分散クラスターまでのリソースを使用できます。詳細については、「Amazon でモデルをトレーニングする SageMaker」を参照してください。

    • モデルの評価 – モデルをトレーニングしたら、モデルを評価して推論の精度が許容できるかどうかを確認します。モデルをトレーニングおよび評価するには、SageMaker Python SDK を使用して、使用可能な IDEs。モデルの評価の詳細については、「」を参照してくださいデータとモデル品質のモニタリング

  3. モデルをデプロイする – 従来は、モデルをアプリケーションと統合してデプロイする前に、モデルを再設計していました。 SageMaker ホスティングサービスを使用すると、モデルを個別にデプロイできるため、アプリケーションコードからデカップリングできます。詳細については、「推論のためのモデルをデプロイする」を参照してください。

機械学習は、継続的なサイクルです。モデルをデプロイしたら、推論をモニタリングし、より高品質のデータを収集し、モデルを評価してドリフトを特定します。次に、トレーニングデータを更新して、新しく収集された高品質データを含めることで、推論の精度を向上させます。利用可能なデータが増えるにつれて、モデルの再トレーニングを続行して精度を向上させます。