データの調査、分析、処理 - Amazon SageMaker

「翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。」

データの調査、分析、処理

データセットをモデルのトレーニングに使用する前に、データサイエンティストは通常、データセットを確認して事前処理します。たとえば、このガイドの演習の 1 つでは、一般的に利用されている手書き番号のデータセットである MNIST データセットをモデルのトレーニングのために使用します。トレーニングを開始する前に、より効率的なトレーニングのためにデータ形式を変換します。詳細については、ステップ 4.3: トレーニングデータセットを変換し、 にアップロードするAmazon S3 を参照してください。

データを前処理するには、次のいずれかの方法を使用します。

  • Jupyterノートブックを Amazon SageMaker ノートブック・インスタンス。ノートブックインスタンスを使用して以下を行うこともできます。

    • モデルのトレーニングジョブを作成するためのコードを記述する

    • SageMaker ホスティングにモデルをデプロイする

    • モデルをテストまたは検証する

    詳細については、「Amazon SageMaker ノートブックインスタンスの使用」を参照してください

  • モデルを使用してデータを変換するには、SageMaker バッチ変換を使用します。詳細については、ステップ 6.2: バッチ変換でモデルをデプロイする を参照してください。

Amazon SageMaker Processing を利用すると、SageMaker でデータの事前処理および事後処理を行うジョブの実行、フィーチャエンジニアリング、モデルの評価を簡単かつ大規模に行うことができます。SageMaker によって提供されるその他の重要な機械学習タスク (トレーニングやホスティングなど) と組み合わせると、Processing は、SageMaker に組み込まれたすべてのセキュリティおよびコンプライアンスのサポートを含む、フルマネージド型の機械学習環境のメリットを提供します。Processing を使用すると、組み込みのデータ処理コンテナを使用したり、独自のコンテナを持ち込み、管理インフラストラクチャで実行するカスタムジョブを送信したりする柔軟性が得られます。ジョブを送信すると、SageMaker はコンピューティングインスタンスを起動し、入力データを処理および分析し、完了するとリソースを解放します。詳細については、データの処理とモデルの評価 を参照してください。