Jalankan Processing Job dengan scikit-learn

Anda dapat menggunakan Amazon SageMaker Processing untuk memproses data dan mengevaluasi model dengan skrip scikit-learn dalam image Docker yang disediakan oleh Amazon AI. SageMaker Berikut ini memberikan contoh tentang cara menjalankan pekerjaan Amazon SageMaker Processing menggunakan scikit-learn.

Untuk contoh buku catatan yang menunjukkan cara menjalankan skrip scikit-learn menggunakan image Docker yang disediakan dan dikelola oleh SageMaker AI untuk memproses data sebelumnya dan mengevaluasi model, lihat scikit-learn Processing. Untuk menggunakan notebook ini, Anda perlu menginstal SageMaker AI Python SDK for Processing.

Notebook ini menjalankan tugas pemrosesan menggunakan SKLearnProcessor class dari SageMaker Python SDK untuk menjalankan skrip scikit-learn yang Anda berikan. Skrip memproses data, melatih model menggunakan pekerjaan SageMaker pelatihan, dan kemudian menjalankan pekerjaan pemrosesan untuk mengevaluasi model yang terlatih. Pekerjaan pemrosesan memperkirakan bagaimana model diharapkan untuk tampil dalam produksi.

Untuk mempelajari lebih lanjut tentang menggunakan SDK SageMaker Python dengan kontainer Processing, lihat SageMaker Python SDK. Untuk daftar lengkap image Docker bawaan yang tersedia untuk memproses pekerjaan, lihat Docker Registry Paths and Example Code.

Contoh kode berikut menunjukkan bagaimana notebook menggunakan SKLearnProcessor untuk menjalankan skrip scikit-learn Anda sendiri menggunakan image Docker yang disediakan dan dikelola oleh SageMaker AI, bukan image Docker Anda sendiri.


from sagemaker.sklearn.processing import SKLearnProcessor
from sagemaker.processing import ProcessingInput, ProcessingOutput

sklearn_processor = SKLearnProcessor(framework_version='0.20.0',
                                     role=role,
                                     instance_type='ml.m5.xlarge',
                                     instance_count=1)

sklearn_processor.run(code='preprocessing.py',
                      inputs=[ProcessingInput(
                        source='s3://path/to/my/input-data.csv',
                        destination='/opt/ml/processing/input')],
                      outputs=[ProcessingOutput(source='/opt/ml/processing/output/train'),
                               ProcessingOutput(source='/opt/ml/processing/output/validation'),
                               ProcessingOutput(source='/opt/ml/processing/output/test')]
                     )

Untuk memproses data secara paralel menggunakan Scikit-Learn di Amazon SageMaker Processing, Anda dapat memisahkan objek input dengan kunci S3 dengan menyetel s3_data_distribution_type='ShardedByS3Key' di dalam ProcessingInput sehingga setiap instance menerima jumlah objek input yang hampir sama.

Awas Javascript dinonaktifkan atau tidak tersedia di browser Anda.

Untuk menggunakan Dokumentasi AWS, Javascript harus diaktifkan. Lihat halaman Bantuan browser Anda untuk petunjuk.

Konvensi Dokumen

Jalankan Processing Job dengan Apache Spark

Pemrosesan Data dengan Prosesor Kerangka