Funktionsverarbeitung mit Sci-kit Learn - Amazon SageMaker

Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.

Funktionsverarbeitung mit Sci-kit Learn

Ein Beispiel-Notebook, das zeigt, wie scikit-learn-Skripte mit einem von bereitgestellten und verwalteten Docker-Image ausgeführt werden, SageMaker um Daten vorab zu verarbeiten und Modelle auszuwerten, finden Sie unter scikit-learn Processing. Um dieses Notebook verwenden zu können, müssen Sie das SageMaker Python SDK for Processing installieren.

Dieses Notebook führt einen Verarbeitungsauftrag mit der -SKLearnProcessorKlasse aus dem SageMaker Python-SDK aus, um ein von Ihnen bereitgestelltes Scikit-learn-Skript auszuführen. Das Skript verarbeitet Daten vor, trainiert ein Modell anhand eines SageMaker Trainingsauftrags und führt dann einen Verarbeitungsauftrag aus, um das trainierte Modell zu bewerten. Mit dem Verarbeitungsauftrag wird die Leistung des Modells in der Produktion geschätzt.

Weitere Informationen zur Verwendung des SageMaker Python-SDK mit Verarbeitungscontainern finden Sie im SageMaker Python-SDK . Eine vollständige Liste der vorgefertigten Docker-Images, die für die Verarbeitung von Aufträgen verfügbar sind, finden Sie unter Docker-Registrierungspfade und Beispielcode.

Das folgende Beispiel zeigt, wie Notebook SKLearnProcessor verwendet, um Ihr eigenes scikit-learn-Skript mit einem von SageMaker bereitgestellten und verwalteten Docker-Image auszuführen, anstatt Ihrem eigenen Docker-Image.

from sagemaker.sklearn.processing import SKLearnProcessor from sagemaker.processing import ProcessingInput, ProcessingOutput sklearn_processor = SKLearnProcessor(framework_version='0.20.0', role=role, instance_type='ml.m5.xlarge', instance_count=1) sklearn_processor.run(code='preprocessing.py', inputs=[ProcessingInput( source='s3://path/to/my/input-data.csv', destination='/opt/ml/processing/input')], outputs=[ProcessingOutput(source='/opt/ml/processing/output/train'), ProcessingOutput(source='/opt/ml/processing/output/validation'), ProcessingOutput(source='/opt/ml/processing/output/test')] )

Um Daten mit Scikit-Learn in Amazon SageMaker Processing parallel zu verarbeiten, können Sie Eingabeobjekte nach S3-Schlüssel fragmentieren, indem Sie s3_data_distribution_type='ShardedByS3Key' innerhalb einer festlegen, ProcessingInput sodass jede Instance etwa dieselbe Anzahl von Eingabeobjekten erhält.