scikit-learn を使ってデータを処理する

が提供する Docker イメージを使用して scikit-learn スクリプトを実行し、データを SageMaker 前処理してモデルを評価する方法を示すサンプルノートブックについては、「scikit-learn Processing」を参照してください。このノートブックを使用するには、Python SDK for Processing をインストール SageMakerする必要があります。

このノートブックは、 SageMaker Python SDK の SKLearnProcessor クラスを使用して処理ジョブを実行し、指定した scikit-learn スクリプトを実行します。このスクリプトはデータを前処理し、 SageMaker トレーニングジョブを使用してモデルをトレーニングしてから、処理ジョブを実行してトレーニング済みモデルを評価します。処理ジョブは、モデルが本番稼働環境でどのように実行されるかを見積もります。

Processing コンテナで SageMaker Python SDK を使用する方法の詳細については、SageMaker Python SDK を参照してください。処理ジョブに使用可能な構築済みの Docker イメージの完全なリストについては、「Docker Registry Paths and Example Code」を参照してください。

次のコード例では、ノートブックが SKLearnProcessor を使用し、独自の Docker イメージではなく、 SageMaker が提供し管理する Docker イメージを使用して、独自の scikit-learn スクリプトを実行する方法を示します。


from sagemaker.sklearn.processing import SKLearnProcessor
from sagemaker.processing import ProcessingInput, ProcessingOutput

sklearn_processor = SKLearnProcessor(framework_version='0.20.0',
                                     role=role,
                                     instance_type='ml.m5.xlarge',
                                     instance_count=1)

sklearn_processor.run(code='preprocessing.py',
                      inputs=[ProcessingInput(
                        source='s3://path/to/my/input-data.csv',
                        destination='/opt/ml/processing/input')],
                      outputs=[ProcessingOutput(source='/opt/ml/processing/output/train'),
                               ProcessingOutput(source='/opt/ml/processing/output/validation'),
                               ProcessingOutput(source='/opt/ml/processing/output/test')]
                     )

Amazon SageMaker Processing で Scikit- Learn を使用してデータを並列処理するには、 s3_data_distribution_type='ShardedByS3Key'内でを設定して S3 キーで入力オブジェクトをシャードし、各インスタンスがほぼ同じ数の入力オブジェクトを受信するProcessingInputようにします。

ブラウザで JavaScript が無効になっているか、使用できません。

AWS ドキュメントを使用するには、JavaScript を有効にする必要があります。手順については、使用するブラウザのヘルプページを参照してください。

ドキュメントの表記規則

Apache Spark を使ってデータを処理する

フレームワークプロセッサによるデータ処理