SageMaker 処理によるデータ変換ワークロード - Amazon SageMaker

翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。

SageMaker 処理によるデータ変換ワークロード

SageMaker 処理とは、 SageMakerのフルマネージドインフラストラクチャで、データの処理前と後、機能エンジニアリング、モデル評価タスクを実行する SageMakerの機能を指します。これらのタスクは処理ジョブ として実行されます。以下に、 SageMaker 処理に関する情報とリソースを示します。

SageMaker Processing を使用するとAPI、データサイエンティストはスクリプトとノートブックを実行してデータセットを処理、変換、分析し、機械学習に備えることができます。トレーニングやホスティングなど SageMaker、 が提供する他の重要な機械学習タスクと組み合わせると、 に組み込まれているすべてのセキュリティとコンプライアンスのサポートなど、フルマネージド型の機械学習環境の利点が得られます SageMaker。組み込みのデータ処理コンテナを使用するか、カスタム処理ロジック用の独自のコンテナを持ち込んでから、 SageMaker マネージドインフラストラクチャで実行するジョブを送信する柔軟性があります。

注記

処理ジョブは、 でサポートされている任意の言語で CreateProcessingJobAPIアクションを呼び出す SageMaker か、 を使用してプログラムで作成できます AWS CLI。このAPIアクションが任意の言語で関数に変換される方法については、「」セクションのhttps://docs.aws.amazon.com/sagemaker/latest/APIReference/API_CreateProcessingJob.html#API_CreateProcessingJob_SeeAlso「」セクションを参照して、 CreateProcessingJob 「」を選択しますSDK。例として、Python ユーザーの場合は、 SageMaker Python の Amazon SageMaker Processing セクションを参照してくださいSDK。または、 の create_processing_job の完全なリクエスト構文を参照してください AWS SDK for Python (Boto3)。

次の図は、Amazon が処理ジョブを SageMaker スピンアップする方法を示しています。Amazon SageMaker はスクリプトを受け取り、Amazon Simple Storage Service (Amazon S3) からデータをコピーし、処理コンテナをプルします。Processing ジョブの基盤となるインフラストラクチャは、Amazon によって完全に管理されます SageMaker。処理ジョブを送信すると、 はコンピューティングインスタンス SageMaker を起動し、入力データを処理および分析し、完了時にリソースを解放します。Processing ジョブの出力は、指定した Amazon S3 バケットに保存されます。

注記

入力データは Amazon S3 バケットに保存されている必要があります。または、Amazon Athena または Amazon Redshift を入力ソースとして使用することもできます。

処理ジョブの実行。
ヒント

機械学習 (ML) のトレーニングや処理ジョブ全般の分散コンピューティングのベストプラクティスについては、「 SageMaker ベストプラクティスによる分散コンピューティング」を参照してください。

Amazon SageMaker Processing サンプルノートブックを使用する

データの前処理、モデル評価、またはその両方を実行する方法を示す 2 つのサンプル Jupyter ノートブックが用意されています。

処理SDK用 SageMaker Python でデータの前処理とモデルトレーニングと評価を実行するために scikit-learn スクリプトを実行する方法を示すサンプルノートブックについては、「scikit-learn Processing」を参照してください。このノートブックでは、独自のカスタムコンテナを使用して、Python ライブラリやその他の特定の依存関係で処理ワークロードを実行する方法についても説明します。

Amazon SageMaker Processing を使用して Spark で分散データ前処理を実行する方法を示すサンプルノートブックについては、「分散処理 (Spark)」を参照してください。このノートブックでは、前処理されたデータセットXGBoostで を使用して回帰モデルをトレーニングする方法も示しています。

でこれらのサンプルを実行するために使用できる Jupyter ノートブックインスタンスを作成してアクセスする方法については SageMaker、「」を参照してくださいAmazon SageMaker Notebook インスタンス。ノートブックインスタンスを作成して開いたら、SageMaker サンプルタブを選択してすべての SageMaker サンプルのリストを表示します。ノートブックを開くには、その [Use (使用)] タブを選択し、[Create copy (コピーを作成)] を選択します。

CloudWatch ログとメトリクスによる Amazon SageMaker 処理ジョブのモニタリング

Amazon SageMaker Processing は、処理ジョブをモニタリングするための Amazon CloudWatch ログとメトリクスを提供します。 はCPU、、GPUメモリ、GPUメモリ、ディスクメトリクス、およびイベントログ記録 CloudWatch を提供します。詳細については、「Amazon SageMaker で Amazon をモニタリングするためのメトリクス CloudWatch」および「Amazon が Amazon CloudWatch Logs SageMaker に送信するロググループとストリーム」を参照してください。