プロセスデータ - アマゾン SageMaker

翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。

プロセスデータ

Amazon でデータを分析し、機械学習モデルを評価するにはSageMaker、Amazon SageMaker Processing を使用してください。Processing を使用すると、フィーチャエンジニアリング、データ検証、モデル評価、モデル解釈などのデータ処理ワークロードを、シンプルかつ管理された状態で実行できます。SageMakerまた、実験段階やコードが本番環境にデプロイされた後に Amazon SageMaker Processing API を使用してパフォーマンスを評価することもできます。


            処理ジョブの実行。

上の図は、Amazon SageMaker が処理ジョブをどのようにスピンアップするかを示しています。Amazon SageMaker はスクリプトを取得し、Amazon シンプルストレージサービス (Amazon S3) からデータをコピーし、処理コンテナを取得します。処理コンテナイメージは、Amazon SageMaker の組み込みイメージでも、お客様が提供するカスタムイメージでもかまいません。処理ジョブの基盤となるインフラストラクチャは Amazon によって完全に管理されていますSageMaker。クラスターのリソースはジョブ期間中にプロビジョンされ、ジョブが完了するとクリーンアップされます。Processing ジョブの出力は、指定した Amazon S3 バケットに保存されます。

注記

入力データは Amazon S3 バケットに保存する必要があります。または、Amazon Athena または Amazon Redshift を入力ソースとして使用することもできます。

ヒント

機械学習 (ML) トレーニングおよび処理ジョブの分散コンピューティングに関するベストプラクティス全般については、を参照してください SageMaker ベストプラクティスを活用した分散コンピューティング

Amazon SageMaker プロセッシングのサンプルノートブックを使う

データの前処理、モデル評価、またはその両方を実行する方法を示す 2 つのサンプル Jupyter ノートブックが用意されています。

scikit-learn スクリプトを実行して SageMaker Python SDK for Processing を使用してデータの前処理とモデルトレーニングと評価を実行する方法を示すサンプルノートブックについては、scikit-learn プロセッシングを参照してください。このノートブックでは、独自のカスタムコンテナを使用して、Python ライブラリやその他の特定の依存関係で処理ワークロードを実行する方法についても説明します。

Amazon SageMaker Processing を使用して Spark で分散データ前処理を実行する方法を示すサンプルノートブックについては、「分散処理 (Spark)」を参照してください。このノートブックでは、前処理されたデータセットで XGBoost を使用して回帰モデルをトレーニングする方法についても説明します。

SageMaker でこれらのサンプルを実行するために使用する Jupyter ノートブックインスタンスを作成し、アクセスする方法については、「アマゾン SageMaker ノートブックインスタンス」を参照してください。ノートブックインスタンスを作成して開いたら、「SageMakerExamples」タブを選択すると、SageMakerすべてのサンプルのリストが表示されます。ノートブックを開くには、その [Use (使用)] タブを選択し、[Create copy (コピーを作成)] を選択します。

Amazon SageMaker CloudWatch の処理ジョブをログとメトリックスで監視する

Amazon SageMaker Processing は、処理ジョブをモニタリングするための Amazon CloudWatch ログとメトリックスを提供します。CloudWatchCPU、GPU、メモリ、GPU メモリ、ディスクメトリクス、およびイベントログを提供します。詳細については、「モニターアマゾン SageMaker アマゾンで CloudWatch」および「ログアマゾン SageMaker アマゾンでのイベント CloudWatch」を参照してください。