Konsolidasi Anotasi - Amazon SageMaker

Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.

Konsolidasi Anotasi

Anotasi adalah hasil dari tugas pelabelan pekerja tunggal. Konsolidasi anotasi menggabungkan anotasi dari dua atau lebih pekerja ke dalam satu label untuk objek data Anda. Label, yang ditetapkan untuk setiap objek dalam dataset, adalah perkiraan probabilistik dari apa label sebenarnya. Setiap objek dalam kumpulan data biasanya memiliki beberapa anotasi, tetapi hanya satu label atau kumpulan label.

Anda memutuskan berapa banyak pekerja yang membuat anotasi setiap objek dalam kumpulan data Anda. Menggunakan lebih banyak pekerja dapat meningkatkan akurasi label Anda, tetapi juga meningkatkan biaya pelabelan. Untuk mempelajari lebih lanjut tentang harga Ground Truth, lihat harga Amazon SageMaker Ground Truth.

Jika Anda menggunakan SageMaker konsol Amazon untuk membuat pekerjaan pelabelan, berikut ini adalah default untuk jumlah pekerja yang dapat membuat anotasi objek:

  • Klasifikasi teks-3 pekerja

  • Klasifikasi gambar—3 pekerja

  • Kotak pembatas — 5 pekerja

  • Segmentasi semantik — 3 pekerja

  • Pengakuan entitas bernama — 3 pekerja

Saat Anda menggunakan CreateLabelingJoboperasi, Anda mengatur jumlah pekerja untuk membubuhi keterangan setiap objek data dengan parameter. NumberOfHumanWorkersPerDataObject Anda dapat mengganti jumlah pekerja default yang membuat anotasi objek data menggunakan konsol atau operasi. CreateLabelingJob

Ground Truth menyediakan fungsi konsolidasi anotasi untuk setiap tugas pelabelan yang telah ditentukan sebelumnya: kotak pembatas, klasifikasi gambar, pengenalan entitas nama, segmentasi semantik, dan klasifikasi teks. Ini adalah fungsinya:

  • Konsolidasi anotasi multi-kelas untuk klasifikasi gambar dan teks menggunakan varian pendekatan Expectation Maximization untuk anotasi. Ini memperkirakan parameter untuk setiap pekerja dan menggunakan inferensi Bayesian untuk memperkirakan kelas sebenarnya berdasarkan anotasi kelas dari pekerja individu.

  • Anotasi kotak pembatas mengkonsolidasikan kotak pembatas dari beberapa pekerja. Fungsi ini menemukan kotak yang paling mirip dari pekerja yang berbeda berdasarkan indeks Jaccard, atau persimpangan di atas serikat pekerja, dari kotak dan rata-rata mereka.

  • Konsolidasi anotasi segmentasi semantik memperlakukan setiap piksel dalam satu gambar sebagai klasifikasi multi-kelas. Fungsi ini memperlakukan anotasi piksel dari pekerja sebagai “suara”, dengan informasi lebih lanjut dari piksel sekitarnya digabungkan dengan menerapkan fungsi smoothing ke gambar.

  • Pengenalan entitas bernama mengelompokkan pilihan teks berdasarkan kesamaan Jaccard dan menghitung batas pemilihan berdasarkan mode, atau median jika modenya tidak jelas. Label menyelesaikan label entitas yang paling banyak ditetapkan di cluster, memutuskan ikatan dengan pemilihan acak.

Anda dapat menggunakan algoritme lain untuk mengkonsolidasikan anotasi. Untuk informasi, lihat Buat Fungsi Konsolidasi Anotasi Anda Sendiri.

Buat Fungsi Konsolidasi Anotasi Anda Sendiri

Anda dapat memilih untuk menggunakan fungsi konsolidasi anotasi Anda sendiri untuk menentukan label akhir untuk objek berlabel Anda. Ada banyak pendekatan yang mungkin untuk menulis fungsi dan pendekatan yang Anda ambil tergantung pada sifat anotasi untuk dikonsolidasikan. Secara umum, fungsi konsolidasi melihat anotasi dari pekerja, mengukur kesamaan di antara mereka, dan kemudian menggunakan beberapa bentuk penilaian probabilistik untuk menentukan label apa yang paling mungkin seharusnya.

Jika ingin menggunakan algoritme lain untuk membuat fungsi konsolidasi anotasi, Anda dapat menemukan respons pekerja di [project-name]/annotations/worker-response folder bucket Amazon S3 tempat Anda mengarahkan output pekerjaan.

Menilai Kesamaan

Untuk menilai kesamaan antara label, Anda dapat menggunakan salah satu strategi berikut, atau Anda dapat menggunakan salah satu yang memenuhi kebutuhan pelabelan data Anda:

  • Untuk ruang label yang terdiri dari kategori diskrit dan saling eksklusif, seperti klasifikasi multi-kelas, menilai kesamaan bisa sangat mudah. Label diskrit cocok atau tidak cocok.

  • Untuk spasi label yang tidak memiliki nilai diskrit, seperti anotasi kotak pembatas, temukan ukuran kesamaan yang luas. Untuk kotak pembatas, salah satu ukuran tersebut adalah indeks Jaccard. Ini mengukur rasio persimpangan dua kotak dengan penyatuan kotak untuk menilai seberapa mirip mereka. Misalnya, jika ada tiga anotasi, maka bisa ada fungsi yang menentukan anotasi mana yang mewakili objek yang sama dan harus dikonsolidasikan.

Menilai Label yang Paling Mungkin

Dengan salah satu strategi yang dirinci di bagian sebelumnya dalam pikiran, buat semacam penilaian probabilistik tentang apa label konsolidasi seharusnya. Dalam kasus kategori diskrit dan saling eksklusif, ini bisa sangat mudah. Salah satu cara paling umum untuk melakukan ini adalah dengan mengambil hasil suara mayoritas di antara anotasi. Ini memberi bobot anotasi secara merata.

Beberapa pendekatan mencoba memperkirakan keakuratan anotator yang berbeda dan menimbang anotasi mereka sebanding dengan probabilitas kebenaran. Contohnya adalah metode Expectation Maximization, yang digunakan dalam fungsi konsolidasi Ground Truth default untuk anotasi multi-kelas.

Untuk informasi selengkapnya tentang membuat fungsi konsolidasi anotasi, lihat. Langkah 3: Memproses dengan AWS Lambda