Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.
Cara kerja penyaringan SageMaker cerdas
Tujuan dari penyaringan SageMaker cerdas adalah untuk menyaring data pelatihan Anda selama proses pelatihan dan hanya memberi makan sampel yang lebih informatif ke model. Selama pelatihan tipikal dengan PyTorch, data dikirim secara iteratif dalam batch ke loop pelatihan dan ke perangkat akselerator (seperti GPUs atau chip Trainium) oleh. PyTorchDataLoader
Diagram berikut menunjukkan gambaran umum tentang bagaimana algoritma penyaringan SageMaker cerdas dirancang.

Singkatnya, penyaringan SageMaker cerdas beroperasi selama pelatihan saat data dimuat. Algoritma penyaringan SageMaker cerdas menjalankan perhitungan kerugian pada batch, dan menyaring data yang tidak ditingkatkan sebelum pass maju dan mundur dari setiap iterasi. Batch data yang disempurnakan kemudian digunakan untuk pass maju dan mundur.
catatan
Pemilahan data cerdas pada SageMaker AI menggunakan pass maju tambahan untuk menganalisis dan memfilter data pelatihan Anda. Pada gilirannya, ada lebih sedikit lintasan mundur karena data yang kurang berdampak dikeluarkan dari pekerjaan pelatihan Anda. Karena itu, model yang memiliki lintasan mundur yang panjang atau mahal melihat keuntungan efisiensi terbesar saat menggunakan penyaringan pintar. Sementara itu, jika forward pass model Anda membutuhkan waktu lebih lama dari backward pass, overhead dapat meningkatkan total waktu pelatihan. Untuk mengukur waktu yang dihabiskan oleh setiap pass, Anda dapat menjalankan pekerjaan pelatihan pilot dan mengumpulkan log yang mencatat waktu pada proses. Juga pertimbangkan untuk menggunakan SageMaker Profiler yang menyediakan alat profiling dan aplikasi UI. Untuk mempelajari selengkapnya, lihat Amazon SageMaker Profiler.
SageMaker smart sifting berfungsi untuk pekerjaan pelatihan PyTorch berbasis dengan paralelisme data terdistribusi klasik, yang membuat replika model pada setiap pekerja dan kinerja GPU. AllReduce
Ia bekerja dengan PyTorch DDP dan perpustakaan paralel data terdistribusi SageMaker AI.