Pemrosesan Data dengan scikit-learn - Amazon SageMaker

Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.

Pemrosesan Data dengan scikit-learn

Untuk contoh buku catatan yang menunjukkan cara menjalankan skrip scikit-learn menggunakan image Docker yang disediakan dan dikelola oleh SageMaker untuk memproses data sebelumnya dan mengevaluasi model, lihat scikit-learn Processing. Untuk menggunakan notebook ini, Anda perlu menginstal SageMaker Python SDK for Processing.

Notebook ini menjalankan tugas pemrosesan menggunakan SKLearnProcessor class dari SageMaker Python SDK untuk menjalankan skrip scikit-learn yang Anda berikan. Skrip memproses data, melatih model menggunakan pekerjaan SageMaker pelatihan, dan kemudian menjalankan pekerjaan pemrosesan untuk mengevaluasi model yang terlatih. Pekerjaan pemrosesan memperkirakan bagaimana model diharapkan untuk tampil dalam produksi.

Untuk mempelajari lebih lanjut tentang menggunakan SDK SageMaker Python dengan kontainer Processing, lihat SageMaker Python SDK. Untuk daftar lengkap image Docker bawaan yang tersedia untuk memproses pekerjaan, lihat Docker Registry Paths and Example Code.

Contoh kode berikut menunjukkan bagaimana notebook menggunakan SKLearnProcessor untuk menjalankan skrip scikit-learn Anda sendiri menggunakan image Docker yang disediakan dan dikelola oleh SageMaker, bukan image Docker Anda sendiri.

from sagemaker.sklearn.processing import SKLearnProcessor from sagemaker.processing import ProcessingInput, ProcessingOutput sklearn_processor = SKLearnProcessor(framework_version='0.20.0', role=role, instance_type='ml.m5.xlarge', instance_count=1) sklearn_processor.run(code='preprocessing.py', inputs=[ProcessingInput( source='s3://path/to/my/input-data.csv', destination='/opt/ml/processing/input')], outputs=[ProcessingOutput(source='/opt/ml/processing/output/train'), ProcessingOutput(source='/opt/ml/processing/output/validation'), ProcessingOutput(source='/opt/ml/processing/output/test')] )

Untuk memproses data secara paralel menggunakan Scikit-Learn di Amazon SageMaker Processing, Anda dapat memisahkan objek input dengan kunci S3 dengan menyetel s3_data_distribution_type='ShardedByS3Key' di dalam ProcessingInput sehingga setiap instance menerima jumlah objek input yang hampir sama.