処理ジョブを使用してデータ変換ワークロードを実行する - Amazon SageMaker

翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。

処理ジョブを使用してデータ変換ワークロードを実行する

SageMaker 処理とは、 SageMakerのフルマネージドインフラストラクチャでデータの事前および事後処理、特徴量エンジニアリング、モデル評価タスクを実行する SageMakerの機能を指します。これらのタスクは処理ジョブ として実行されます。 SageMaker Processing API を使用すると、データサイエンティストはスクリプトとノートブックを実行してデータセットを処理、変換、分析し、機械学習に備えることができます。トレーニングやホスティングなど SageMaker、 が提供する他の重要な機械学習タスクと組み合わせると、 に組み込まれているすべてのセキュリティやコンプライアンスのサポートなど、フルマネージド型の機械学習環境の利点が得られます SageMaker。組み込みのデータ処理コンテナを使用するか、カスタム処理ロジック用に独自のコンテナを持ち込んで、 SageMaker マネージドインフラストラクチャで実行するジョブを送信する柔軟性があります。

注記

処理ジョブは、 でサポートされている任意の言語で CreateProcessingJob API アクションを呼び出す SageMaker か、 を使用してプログラムで作成できます AWS CLI。この API アクションが選択した言語で関数に変換される方法については、「」のhttps://docs.aws.amazon.com/sagemaker/latest/APIReference/API_CreateProcessingJob.html#API_CreateProcessingJob_SeeAlso「」セクションを参照して SDK CreateProcessingJob を選択します。例として、Python ユーザーの場合は、Python SageMaker SDK の Amazon SageMaker Processing セクションを参照してください。または、 の create_processing_job の完全なリクエスト構文を参照してください AWS SDK for Python (Boto3)。

次の図は、Amazon SageMaker が処理ジョブを起動する方法を示しています。Amazon SageMaker はスクリプトを受け取り、Amazon Simple Storage Service (Amazon S3) からデータをコピーし、処理コンテナをプルします。処理ジョブの基盤となるインフラストラクチャは、Amazon によって完全に管理されます SageMaker。処理ジョブを送信すると、 はコンピューティングインスタンス SageMaker を起動し、入力データを処理および分析し、完了時にリソースを解放します。Processing ジョブの出力は、指定した Amazon S3 バケットに保存されます。

注記

入力データは Amazon S3 バケットに保存されている必要があります。または、Amazon Athena または Amazon Redshift を入力ソースとして使用することもできます。

処理ジョブの実行。
ヒント

機械学習 (ML) のトレーニングや処理ジョブ全般の分散コンピューティングのベストプラクティスについては、「 SageMaker ベストプラクティスによる分散コンピューティング」を参照してください。

Amazon SageMaker Processing サンプルノートブックを使用する

データの前処理、モデル評価、またはその両方を実行する方法を示す 2 つのサンプル Jupyter ノートブックが用意されています。

処理用 SageMaker Python SDK を使用してデータの前処理とモデルトレーニングと評価を実行するための scikit-learn スクリプトの実行方法を示すサンプルノートブックについては、「scikit-learn Processing」を参照してください。このノートブックでは、独自のカスタムコンテナを使用して、Python ライブラリやその他の特定の依存関係で処理ワークロードを実行する方法についても説明します。

Amazon SageMaker Processing を使用して Spark で分散データの前処理を実行する方法を示すサンプルノートブックについては、「分散処理 (Spark)」を参照してください。このノートブックでは、前処理されたデータセットで XGBoost を使用して回帰モデルをトレーニングする方法についても説明します。

でこれらのサンプルを実行するために使用できる Jupyter Notebook インスタンスを作成してアクセスする方法については SageMaker、「」を参照してくださいAmazon SageMaker Notebook インスタンス。ノートブックインスタンスを作成して開いたら、SageMaker 「例」タブを選択すると、すべての SageMaker サンプルのリストが表示されます。ノートブックを開くには、その [Use (使用)] タブを選択し、[Create copy (コピーを作成)] を選択します。

CloudWatch ログとメトリクスによる Amazon SageMaker 処理ジョブのモニタリング

Amazon SageMaker Processing は、処理ジョブをモニタリングするための Amazon CloudWatch ログとメトリクスを提供します。 CloudWatch は、CPU、GPU、メモリ、GPU メモリ、ディスクメトリクス、およびイベントログ記録を提供します。詳細については、「Amazon SageMaker でアマゾンを監視 CloudWatch」および「アマゾンでAmazon SageMaker イベントをログに記録する CloudWatch」を参照してください。