Sumber data Pelatihan versus penyetelan data

Model bahasa khusus

Model bahasa khusus dirancang untuk meningkatkan akurasi transkripsi untuk pidato khusus domain. Ini termasuk konten apa pun di luar apa yang akan Anda dengar dalam percakapan sehari-hari yang normal. Misalnya, jika Anda menyalin prosiding dari konferensi ilmiah, transkripsi standar tidak mungkin mengenali banyak istilah ilmiah yang digunakan oleh presenter. Dalam hal ini, Anda dapat melatih model bahasa khusus untuk mengenali istilah khusus yang digunakan dalam disiplin Anda.

Tidak seperti kosakata khusus, yang meningkatkan pengenalan kata dengan memberikan petunjuk (seperti pengucapan), model bahasa khusus mempelajari konteks yang terkait dengan kata tertentu. Ini termasuk bagaimana dan kapan sebuah kata digunakan, dan hubungan sebuah kata dengan kata lain. Misalnya, jika Anda melatih model Anda menggunakan makalah penelitian ilmu iklim, model Anda mungkin belajar bahwa 'gumpalan es' adalah pasangan kata yang lebih mungkin daripada 'aliran es'.

Untuk melihat bahasa yang didukung untuk model bahasa kustom, lihatBahasa yang didukung dan fitur khusus bahasa. Perhatikan bahwa jika Anda menyertakan model bahasa kustom dalam permintaan Anda, Anda tidak dapat mengaktifkan identifikasi bahasa (Anda harus menentukan kode bahasa).

Operasi API khusus untuk model bahasa khusus

CreateLanguageModel, DeleteLanguageModel, DescribeLanguageModel, ListLanguageModels

Sumber data

Anda dapat menggunakan semua jenis data teks yang ingin Anda latih model Anda. Namun, semakin dekat konten teks Anda dengan konten audio Anda, semakin akurat model Anda. Oleh karena itu, penting untuk memilih data teks yang menggunakan istilah yang sama dalam konteks yang sama dengan audio Anda.

Data terbaik untuk melatih model adalah transkrip yang akurat. Ini dianggap sebagai data dalam domain. Data teks dalam domain memiliki istilah, penggunaan, dan konteks yang sama persis dengan audio yang ingin Anda transkripsikan.

Jika Anda tidak memiliki transkrip yang akurat, gunakan artikel jurnal, laporan teknis, whitepaper, prosiding konferensi, instruksi manual, artikel berita, konten situs web, dan teks lain yang berisi istilah yang diinginkan yang digunakan dalam konteks yang mirip dengan audio Anda. Ini dianggap sebagai data terkait domain.

Membuat model bahasa kustom yang kuat mungkin memerlukan sejumlah besar data teks, yang harus berisi istilah yang diucapkan dalam audio Anda. Anda dapat Amazon Transcribe menyediakan data teks hingga 2 GB untuk melatih model Anda—ini disebut sebagai data pelatihan. Secara opsional, jika Anda tidak memiliki (atau sedikit) transkrip dalam domain, Anda dapat menyediakan Amazon Transcribe hingga 200 MB data teks untuk menyetel model Anda—ini disebut sebagai data penyetelan.

Pelatihan versus penyetelan data

Tujuan dari data pelatihan adalah Amazon Transcribe untuk mengajarkan mengenali istilah-istilah baru dan mempelajari konteks di mana istilah-istilah ini digunakan. Untuk membuat model yang kuat, Amazon Transcribe mungkin memerlukan volume besar data teks yang relevan. Menyediakan data pelatihan sebanyak mungkin, hingga batas 2 GB, sangat disarankan.

Tujuan penyetelan data adalah untuk membantu menyempurnakan dan mengoptimalkan hubungan kontekstual yang dipelajari dari data pelatihan Anda. Data penyetelan tidak diperlukan untuk membuat model bahasa khusus.

Terserah Anda untuk memutuskan cara terbaik untuk memilih pelatihan dan, secara opsional, menyetel data. Setiap kasus unik dan tergantung pada jenis dan jumlah data yang Anda miliki. Data penyetelan disarankan saat Anda kekurangan data pelatihan dalam domain.

Jika Anda memilih untuk menyertakan kedua tipe data, jangan tumpang tindih dengan data pelatihan dan penyetelan Anda; data pelatihan dan penyetelan harus unik. Data yang tumpang tindih dapat membuat bias dan memiringkan model bahasa kustom Anda, memengaruhi keakuratannya.

Sebagai panduan umum, sebaiknya gunakan teks dalam domain yang akurat sebagai data pelatihan bila memungkinkan. Berikut adalah beberapa skenario umum, tercantum dalam urutan preferensi:

Jika Anda memiliki lebih dari 10.000 kata teks transkrip dalam domain yang akurat, gunakan itu sebagai data pelatihan. Dalam hal ini, tidak perlu memasukkan data tuning. Ini adalah skenario ideal untuk melatih model bahasa khusus.
Jika Anda memiliki teks transkrip dalam domain yang akurat yang berisi kurang dari 10.000 kata dan tidak mendapatkan hasil yang diinginkan, pertimbangkan untuk menambah data pelatihan Anda dengan teks tertulis terkait domain, seperti laporan teknis. Dalam hal ini, pesan sebagian kecil (10-25%) dari data transkrip dalam domain Anda untuk digunakan sebagai data penyetelan.
Jika Anda tidak memiliki teks transkrip dalam domain, unggah semua teks terkait domain Anda sebagai data pelatihan. Dalam hal ini, teks bergaya transkrip lebih disukai daripada teks tertulis. Ini adalah skenario yang paling tidak efektif untuk melatih model bahasa khusus.

Ketika Anda siap untuk membuat model Anda, lihatMembuat model bahasa khusus.

Awas Javascript dinonaktifkan atau tidak tersedia di browser Anda.

Untuk menggunakan Dokumentasi AWS, Javascript harus diaktifkan. Lihat halaman Bantuan browser Anda untuk petunjuk.

Konvensi Dokumen

Menggunakan kosakata khusus

Membuat model bahasa khusus