scikit-learn を使ってデータを処理する - Amazon SageMaker

翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。

scikit-learn を使ってデータを処理する

が提供する Docker イメージを使用して scikit-learn スクリプトを実行し、データを SageMaker 前処理してモデルを評価する方法を示すサンプルノートブックについては、「scikit-learn Processing」を参照してください。このノートブックを使用するには、Python SDK for Processing をインストール SageMakerする必要があります。

このノートブックは、 SageMaker Python SDK の SKLearnProcessor クラスを使用して処理ジョブを実行し、指定した scikit-learn スクリプトを実行します。このスクリプトはデータを前処理し、 SageMaker トレーニングジョブを使用してモデルをトレーニングしてから、処理ジョブを実行してトレーニング済みモデルを評価します。処理ジョブは、モデルが本番稼働環境でどのように実行されるかを見積もります。

Processing コンテナで SageMaker Python SDK を使用する方法の詳細については、SageMaker Python SDK を参照してください。処理ジョブに使用可能な構築済みの Docker イメージの完全なリストについては、「Docker Registry Paths and Example Code」を参照してください。

次のコード例では、ノートブックが SKLearnProcessor を使用し、独自の Docker イメージではなく、 SageMaker が提供し管理する Docker イメージを使用して、独自の scikit-learn スクリプトを実行する方法を示します。

from sagemaker.sklearn.processing import SKLearnProcessor from sagemaker.processing import ProcessingInput, ProcessingOutput sklearn_processor = SKLearnProcessor(framework_version='0.20.0', role=role, instance_type='ml.m5.xlarge', instance_count=1) sklearn_processor.run(code='preprocessing.py', inputs=[ProcessingInput( source='s3://path/to/my/input-data.csv', destination='/opt/ml/processing/input')], outputs=[ProcessingOutput(source='/opt/ml/processing/output/train'), ProcessingOutput(source='/opt/ml/processing/output/validation'), ProcessingOutput(source='/opt/ml/processing/output/test')] )

Amazon SageMaker Processing で Scikit- Learn を使用してデータを並列処理するには、 s3_data_distribution_type='ShardedByS3Key'内で を設定して S3 キーで入力オブジェクトをシャードし、各インスタンスがほぼ同じ数の入力オブジェクトを受信するProcessingInputようにします。