Kontrol Aliran Objek Data yang Dikirim ke Pekerja - Amazon SageMaker

Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.

Kontrol Aliran Objek Data yang Dikirim ke Pekerja

Bergantung pada jenis pekerjaan pelabelan yang Anda buat, Amazon SageMaker Ground Truth mengirimkan objek data ke pekerja dalam batch atau secara streaming. Anda dapat mengontrol aliran objek data ke pekerja dengan cara berikut:

  • Untuk kedua jenis pekerjaan pelabelan, Anda dapat menggunakan MaxConcurrentTaskCount untuk mengontrol jumlah total objek data yang tersedia untuk semua pekerja pada titik waktu tertentu ketika pekerjaan pelabelan sedang berjalan.

  • Untuk streaming pekerjaan pelabelan, Anda dapat mengontrol aliran objek data ke pekerja dengan memantau dan mengontrol jumlah objek data yang dikirim ke Amazon SQS yang terkait dengan pekerjaan pelabelan Anda.

Gunakan bagian berikut untuk mempelajari lebih lanjut tentang opsi ini. Untuk mempelajari lebih lanjut tentang pekerjaan pelabelan streaming, lihatPekerjaan Pelabelan Streaming Ground Truth.

Gunakan MaxConcurrentTaskCount untuk Mengontrol Aliran Objek Data

MaxConcurrentTaskCountmendefinisikan jumlah maksimum objek data yang dapat diberi label oleh pekerja manusia pada saat yang bersamaan. Jika Anda menggunakan konsol, parameter ini diatur ke 1.000. Jika Anda menggunakanCreateLabelingJob, Anda dapat mengatur parameter ini ke bilangan bulat antara 1 dan 1.000, inklusif.

Saat Anda memulai pekerjaan pelabelan menggunakan file manifes masukan, Ground Truth melakukan hal berikut:

  1. Untuk setiap objek data yang tercantum dalam file manifes masukan Anda, satu atau beberapa tugas dibuat, tergantung pada nilai yang Anda tentukanNumberOfHumanWorkersPerDataObject. Misalnya, jika Anda mengatur jumlah pekerja per objek data ke 3, 3 tugas akan dibuat untuk setiap objek dataset. Agar ditandai sebagai berhasil diberi label, setidaknya satu pekerja harus memberi label pada objek. Atau, tugas dapat kedaluwarsa atau ditolak.

  2. Jika Anda menggunakan tenaga kerja Mechanical Turk, Ground Truth pertama-tama mengirimkan kumpulan 10 objek dataset ke pekerja Anda. Ini menggunakan batch kecil ini untuk mengatur pekerjaan pelabelan dan untuk memastikan bahwa pekerjaan dikonfigurasi dengan benar.

  3. Selanjutnya, Ground Truth mengirimkan MaxConcurrentTaskCount sejumlah objek dataset ke pekerja. Misalnya, jika Anda memiliki 2.000 objek data input dalam file manifes masukan Anda dan telah menetapkan jumlah pekerja per objek data ke 3 dan disetel MaxConcurrentTaskCount ke 900, 900 objek data pertama dalam manifes input Anda dikirim ke pekerja, sesuai dengan 2.700 tugas (900 x 3). Ini adalah set objek berukuran penuh pertama yang dikirim ke pekerja.

  4. Apa yang terjadi selanjutnya tergantung pada jenis pekerjaan pelabelan yang Anda buat. Langkah ini mengasumsikan satu atau beberapa objek kumpulan data dalam file manifes masukan Anda, atau dikirim menggunakan sumber data input Amazon SNS (dalam pekerjaan pelabelan streaming) tidak disertakan dalam set yang dikirim ke pekerja pada langkah 3.

    • Pekerjaan pelabelan streaming: Selama jumlah total objek yang tersedia untuk pekerja sama denganMaxConcurrentTaskCount, semua objek kumpulan data yang tersisa pada file manifes masukan Anda dan yang Anda kirim secara real time menggunakan Amazon SNS ditempatkan pada antrean Amazon SQS. Ketika jumlah total objek yang tersedia untuk pekerja turun di bawah MaxConcurrentTaskCount minusNumberOfHumanWorkersPerDataObject, objek data baru dari antrian digunakan untuk membuat NumberOfHumanWorkersPerDataObject -tugas, yang dikirim ke pekerja secara real time.

    • Pekerjaan pelabelan non-streaming: Ketika pekerja selesai memberi label pada satu set objek, hingga MaxConcurrentTaskCount kali NumberOfHumanWorkersPerDataObject jumlah tugas baru akan dikirim ke pekerja. Proses ini diulang sampai semua objek data dalam file manifes masukan diberi label.

Gunakan Amazon SQS untuk Mengontrol Aliran Objek Data ke Pekerjaan Pelabelan Streaming

Saat Anda membuat pekerjaan pelabelan streaming, antrean Amazon SQS secara otomatis dibuat di akun Anda. Objek data hanya ditambahkan ke antrean Amazon SQS ketika jumlah total objek yang dikirim ke pekerja di atas. MaxConcurrentTaskCount Kalau tidak, benda dikirim langsung ke pekerja.

Anda dapat menggunakan antrian ini untuk mengelola aliran objek data ke pekerjaan pelabelan Anda. Untuk mempelajari selengkapnya, lihat Mengelola Permintaan Pelabelan dengan Antrian Amazon SQS .