Cara kerja penyaringan SageMaker cerdas

Tujuan dari penyaringan SageMaker cerdas adalah untuk menyaring data pelatihan Anda selama proses pelatihan dan hanya memberi makan sampel yang lebih informatif ke model. Selama pelatihan tipikal dengan PyTorch, data dikirim secara iteratif dalam batch ke loop pelatihan dan ke perangkat akselerator (seperti GPUs atau chip Trainium) oleh. PyTorchDataLoader SageMaker penyaringan cerdas diimplementasikan pada tahap pemuatan data ini dan dengan demikian tidak tergantung pada pra-pemrosesan data hulu dalam jalur pelatihan Anda. SageMaker smart sifting menggunakan model Anda dan fungsi kerugian yang ditentukan pengguna untuk melakukan forward pass evaluatif dari setiap sampel data saat dimuat. Sampel yang mengembalikan nilai kerugian rendah memiliki dampak yang lebih kecil pada pembelajaran model dan dengan demikian dikeluarkan dari pelatihan, karena sudah mudah bagi model untuk membuat prediksi yang tepat tentang mereka dengan keyakinan tinggi. Sementara itu, sampel dengan kerugian yang relatif tinggi itulah yang masih perlu dipelajari oleh model, jadi ini disimpan untuk pelatihan. Input kunci yang dapat Anda atur untuk penyaringan SageMaker cerdas adalah proporsi data yang akan dikecualikan. Misalnya, dengan menetapkan proporsi ke 25%, sampel yang didistribusikan dalam kuartil terendah dari distribusi kerugian (diambil dari jumlah sampel sebelumnya yang ditentukan pengguna) dikeluarkan dari pelatihan. Sampel dengan kerugian tinggi diakumulasikan dalam kumpulan data yang disempurnakan. Kumpulan data yang disempurnakan dikirim ke loop pelatihan (pass maju dan mundur), dan model belajar dan melatih pada batch data yang disempurnakan.

Diagram berikut menunjukkan gambaran umum tentang bagaimana algoritma penyaringan SageMaker cerdas dirancang.

Diagram arsitektur tentang bagaimana penyaringan SageMaker cerdas beroperasi selama pelatihan saat data dimuat.

Singkatnya, penyaringan SageMaker cerdas beroperasi selama pelatihan saat data dimuat. Algoritma penyaringan SageMaker cerdas menjalankan perhitungan kerugian pada batch, dan menyaring data yang tidak ditingkatkan sebelum pass maju dan mundur dari setiap iterasi. Batch data yang disempurnakan kemudian digunakan untuk pass maju dan mundur.

catatan

Pemilahan data cerdas pada SageMaker AI menggunakan pass maju tambahan untuk menganalisis dan memfilter data pelatihan Anda. Pada gilirannya, ada lebih sedikit lintasan mundur karena data yang kurang berdampak dikeluarkan dari pekerjaan pelatihan Anda. Karena itu, model yang memiliki lintasan mundur yang panjang atau mahal melihat keuntungan efisiensi terbesar saat menggunakan penyaringan pintar. Sementara itu, jika forward pass model Anda membutuhkan waktu lebih lama dari backward pass, overhead dapat meningkatkan total waktu pelatihan. Untuk mengukur waktu yang dihabiskan oleh setiap pass, Anda dapat menjalankan pekerjaan pelatihan pilot dan mengumpulkan log yang mencatat waktu pada proses. Juga pertimbangkan untuk menggunakan SageMaker Profiler yang menyediakan alat profiling dan aplikasi UI. Untuk mempelajari selengkapnya, lihat Amazon SageMaker Profiler.

SageMaker smart sifting berfungsi untuk pekerjaan pelatihan PyTorch berbasis dengan paralelisme data terdistribusi klasik, yang membuat replika model pada setiap pekerja dan kinerja GPU. AllReduce Ia bekerja dengan PyTorch DDP dan perpustakaan paralel data terdistribusi SageMaker AI.

Awas Javascript dinonaktifkan atau tidak tersedia di browser Anda.

Untuk menggunakan Dokumentasi AWS, Javascript harus diaktifkan. Lihat halaman Bantuan browser Anda untuk petunjuk.

Konvensi Dokumen

Pemurnian data selama pelatihan

Kerangka kerja dan AWS Wilayah yang didukung