Membuat kosakata khusus menggunakan tabel - Amazon Transcribe

Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.

Membuat kosakata khusus menggunakan tabel

Menggunakan format tabel adalah cara yang lebih disukai untuk membuat kosakata kustom Anda. Tabel kosakata harus terdiri dari empat kolom(Phrase, SoundsLike, IPA, and DisplayAs), yang dapat dimasukkan dalam urutan apa pun:

Frase SoundsLike IPA DisplayAs

Wajib. Setiap baris dalam tabel Anda harus berisi entri di kolom ini.

Jangan gunakan spasi di kolom ini.

Jika entri Anda berisi beberapa kata, pisahkan setiap kata dengan tanda hubung (-). Misalnya, Andorra-la-Vella atau Los-Angeles.

Untuk akronim, setiap huruf yang diucapkan harus dipisahkan oleh titik. Periode trailing juga perlu diucapkan. Jika akronim Anda jamak, Anda harus menggunakan tanda hubung antara akronim dan 's'. Misalnya, 'CLI' adalah C.L.I. (tidakC.L.I) dan 'ABC' adalah A.B.C.-s (tidak). A.B.C-s

Jika frasa Anda terdiri dari kata dan akronim, kedua komponen ini harus dipisahkan oleh tanda hubung. Misalnya, 'DynamoDB' adalah. Dynamo-D.B.

Jangan sertakan digit di kolom ini; angka harus dijabarkan. Misalnya, 'VX02Q' adalah. V.X.-zero-two-Q.

SoundsLiketidak lagi didukung untuk Kosakata Kustom. Silakan biarkan kolom kosong. Nilai apa pun di kolom ini akan diabaikan. Kami akan menghapus dukungan untuk kolom ini di masa mendatang.

IPAtidak lagi didukung untuk Kosakata Kustom. Silakan biarkan kolom kosong. Nilai apa pun di kolom ini akan diabaikan. Kami akan menghapus dukungan untuk kolom ini di masa mendatang.

Tidak wajib. Baris di kolom ini dapat dibiarkan kosong.

Anda dapat menggunakan spasi di kolom ini.

Mendefinisikan bagaimana Anda ingin entri Anda terlihat dalam output transkripsi Anda. Misalnya, Andorra-la-Vella di Phrase kolom ada Andorra la Vella di DisplayAs kolom.

Jika baris di kolom ini kosong, Amazon Transcribe gunakan isi Phrase kolom untuk menentukan output.

Anda dapat menyertakan digit (0-9) di kolom ini.

Hal-hal yang perlu diperhatikan saat membuat tabel Anda:

  • Tabel Anda harus berisi keempat header (Phrase, SoundsLike, IPA, and DisplayAs) kolom. PhraseKolom harus berisi entri pada setiap baris. Kemampuan untuk memberikan input pengucapan melalui IPA dan SoundsLike tidak lagi didukung dan Anda dapat membiarkan kolom kosong. Nilai apa pun di kolom ini akan diabaikan.

  • Setiap kolom harus TAB atau koma (,) digambarkan; ini berlaku untuk setiap baris dalam file kosakata kustom Anda. Jika baris berisi kolom kosong, Anda masih harus menyertakan delineator (TAB atau koma) untuk setiap kolom.

  • Spasi hanya diperbolehkan di dalam DisplayAs kolom IPA dan. Jangan gunakan spasi untuk memisahkan kolom.

  • IPAdan SoundsLike tidak lagi didukung untuk Kosakata Kustom. Silakan biarkan kolom kosong. Nilai apa pun di kolom ini akan diabaikan. Kami akan menghapus dukungan untuk kolom ini di masa mendatang.

  • DisplayAsKolom mendukung simbol dan karakter khusus (misalnya, C ++). Semua kolom lain mendukung karakter yang tercantum di halaman set karakter bahasa Anda.

  • Jika Anda ingin memasukkan angka di Phrase kolom, Anda harus mengejanya. Digit (0-9) hanya didukung di DisplayAs kolom.

  • Anda harus menyimpan tabel Anda sebagai file plaintext (*.txt) dalam format. LF Jika Anda menggunakan format lain, sepertiCRLF, kosakata kustom Anda tidak dapat diproses.

  • Anda harus mengunggah file kosakata khusus Anda ke dalam Amazon S3 ember dan memprosesnya CreateVocabularysebelum Anda dapat memasukkannya ke dalam permintaan transkripsi. Lihat Membuat tabel kosakata khusus untuk instruksi.

catatan

Masukkan akronim, atau kata lain yang hurufnya harus diucapkan satu per satu, sebagai huruf tunggal yang dipisahkan oleh titik (A.B.C.). Untuk memasukkan bentuk jamak akronim, seperti 'ABC', pisahkan 's' dari akronim dengan tanda hubung (). A.B.C.-s Anda dapat menggunakan huruf besar atau kecil untuk mendefinisikan akronim. Akronim tidak didukung dalam semua bahasa; lihat. Bahasa yang didukung dan fitur khusus bahasa

Berikut adalah contoh tabel kosakata kustom (di mana [TAB] mewakili karakter tab):

Phrase[TAB]SoundsLike[TAB]IPA[TAB]DisplayAs Los-Angeles[TAB][TAB][TAB]Los Angeles Eva-Maria[TAB][TAB][TAB] A.B.C.-s[TAB][TAB][TAB]ABCs Amazon-dot-com[TAB][TAB][TAB]Amazon.com C.L.I.[TAB][TAB][TAB]CLI Andorra-la-Vella[TAB][TAB][TAB]Andorra la Vella Dynamo-D.B.[TAB][TAB][TAB]DynamoDB V.X.-zero-two[TAB][TAB][TAB]VX02 V.X.-zero-two-Q.[TAB][TAB][TAB]VX02Q

Untuk kejernihan visual, berikut adalah tabel yang sama dengan kolom sejajar. Jangan menambahkan spasi antar kolom dalam tabel kosakata kustom Anda; tabel Anda akan terlihat tidak sejajar seperti contoh sebelumnya.

Phrase [TAB]SoundsLike [TAB]IPA [TAB]DisplayAs Los-Angeles [TAB] [TAB] [TAB]Los Angeles Eva-Maria [TAB] [TAB] [TAB] A.B.C.-s [TAB] [TAB] [TAB]ABCs amazon-dot-com [TAB] [TAB] [TAB]amazon.com C.L.I. [TAB] [TAB] [TAB]CLI Andorra-la-Vella[TAB] [TAB] [TAB]Andorra la Vella Dynamo-D.B. [TAB] [TAB] [TAB]DynamoDB V.X.-zero-two [TAB] [TAB] [TAB]VX02 V.X.-zero-two-Q.[TAB] [TAB] [TAB]VX02Q

Membuat tabel kosakata khusus

Untuk memproses tabel kosakata khusus untuk digunakan Amazon Transcribe, lihat contoh berikut:

  1. Masuk ke AWS Management Console.

  2. Di panel navigasi, pilih Kosakata khusus. Ini membuka halaman kosakata kustom di mana Anda dapat melihat kosakata yang ada atau membuat yang baru.

  3. Pilih Buat kosakata.

    Amazon Transcribe tangkapan layar konsol: halaman 'kosakata kustom'.

    Ini membawa Anda ke halaman Buat kosakata. Masukkan nama untuk kosakata kustom baru Anda.

    Di sini, Anda memiliki tiga opsi:

    1. Unggah file txt atau csv dari komputer Anda.

      Anda dapat membuat kosakata khusus dari awal atau mengunduh templat untuk membantu Anda memulai. Kosakata Anda kemudian diisi otomatis di panel Lihat dan edit kosakata.

      Amazon Transcribe tangkapan layar konsol: halaman 'buat dan impor kosakata'.
    2. Impor file txt atau csv dari suatu lokasi. Amazon S3

      Anda dapat membuat kosakata khusus dari awal atau mengunduh templat untuk membantu Anda memulai. Unggah file kosakata Anda yang sudah selesai ke Amazon S3 bucket dan tentukan URI dalam permintaan Anda. Kosakata Anda kemudian diisi otomatis di panel Lihat dan edit kosakata.

      Amazon Transcribe tangkapan layar konsol: halaman 'buat dan impor kosakata'.
    3. Buat kosakata Anda secara manual di konsol.

      Gulir ke panel Lihat dan edit kosakata dan pilih Tambahkan 10 baris. Anda sekarang dapat memasukkan istilah secara manual.

      Amazon Transcribe tangkapan layar konsol: halaman 'buat dan impor kosakata'.
  4. Anda dapat mengedit kosakata Anda Lihat dan mengedit panel kosakata. Untuk membuat perubahan, klik pada entri yang ingin Anda modifikasi.

    Amazon Transcribe tangkapan layar konsol: panel 'buat dan edit kosakata'.

    Jika Anda membuat kesalahan, Anda mendapatkan pesan kesalahan terperinci sehingga Anda dapat memperbaiki masalah apa pun sebelum memproses kosakata Anda. Perhatikan bahwa jika Anda tidak memperbaiki semua kesalahan sebelum memilih Buat kosakata, permintaan kosakata Anda gagal.

    Amazon Transcribe tangkapan layar konsol: panel 'buat dan edit kosakata'.

    Pilih tanda centang (✓) untuk menyimpan perubahan Anda atau 'X' untuk membuang perubahan Anda.

  5. Secara opsional, tambahkan tag ke kosakata khusus Anda. Setelah semua bidang selesai dan puas dengan kosakata Anda, pilih Buat kosakata di bagian bawah halaman. Ini membawa Anda kembali ke halaman kosakata Kustom di mana Anda dapat melihat status kosakata kustom Anda. Ketika status berubah dari 'Tertunda' menjadi 'Siap' kosakata kustom Anda dapat digunakan dengan transkripsi.

    Amazon Transcribe tangkapan layar konsol: kosakata khusus dalam status tertunda saat memproses.
  6. Jika status berubah menjadi 'Gagal', pilih nama kosakata khusus Anda untuk membuka halaman informasinya.

    Amazon Transcribe tangkapan layar konsol: halaman 'kosakata kustom' yang menampilkan satu kosakata sebagai lengkap dan satu lagi gagal.

    Ada spanduk alasan kegagalan di bagian atas halaman ini yang memberikan informasi tentang mengapa kosakata kustom Anda gagal. Perbaiki kesalahan dalam file teks Anda dan coba lagi.

    Amazon Transcribe tangkapan layar konsol: halaman informasi kosakata menunjukkan alasan kegagalan.

Contoh ini menggunakan perintah create-vocabulary dengan file kosakata yang diformat tabel. Untuk informasi selengkapnya, lihat CreateVocabulary.

Untuk menggunakan kosakata kustom yang ada dalam pekerjaan transkripsi, atur VocabularyName di Settingsbidang saat Anda memanggil StartTranscriptionJoboperasi atau, dari AWS Management Console, pilih kosakata khusus dari daftar tarik-turun.

aws transcribe create-vocabulary \ --vocabulary-name my-first-vocabulary \ --vocabulary-file-uri s3://DOC-EXAMPLE-BUCKET/my-vocabularies/my-vocabulary-file.txt \ --language-code en-US

Berikut contoh lain menggunakan perintah create-vocabulary, dan badan permintaan yang membuat kosakata kustom Anda.

aws transcribe create-vocabulary \ --cli-input-json file://filepath/my-first-vocab-table.json

File my-first-vocab-table.json berisi badan permintaan berikut.

{ "VocabularyName": "my-first-vocabulary", "VocabularyFileUri": "s3://DOC-EXAMPLE-BUCKET/my-vocabularies/my-vocabulary-table.txt", "LanguageCode": "en-US" }

Setelah VocabularyState berubah dari PENDING keREADY, kosakata khusus Anda siap digunakan dengan transkripsi. Untuk melihat status kosakata kustom Anda saat ini, jalankan:

aws transcribe get-vocabulary \ --vocabulary-name my-first-vocabulary

Contoh ini menggunakan AWS SDK for Python (Boto3) untuk membuat kosakata kustom dari tabel menggunakan metode create_vocabulary. Untuk informasi selengkapnya, lihat CreateVocabulary.

Untuk menggunakan kosakata kustom yang ada dalam pekerjaan transkripsi, atur VocabularyName di Settingsbidang saat Anda memanggil StartTranscriptionJoboperasi atau, dari AWS Management Console, pilih kosakata khusus dari daftar tarik-turun.

Untuk contoh tambahan yang menggunakan AWS SDK, termasuk contoh khusus fitur, skenario, dan lintas layanan, lihat bagian ini. Contoh kode untuk Amazon Transcribe menggunakan AWS SDKs

from __future__ import print_function import time import boto3 transcribe = boto3.client('transcribe', 'us-west-2') vocab_name = "my-first-vocabulary" response = transcribe.create_vocabulary( LanguageCode = 'en-US', VocabularyName = vocab_name, VocabularyFileUri = 's3://DOC-EXAMPLE-BUCKET/my-vocabularies/my-vocabulary-table.txt' ) while True: status = transcribe.get_vocabulary(VocabularyName = vocab_name) if status['VocabularyState'] in ['READY', 'FAILED']: break print("Not ready yet...") time.sleep(5) print(status)
catatan

Jika Anda membuat Amazon S3 bucket baru untuk file kosakata kustom Anda, pastikan IAM peran yang membuat CreateVocabularypermintaan memiliki izin untuk mengakses bucket ini. Jika peran tidak memiliki izin yang benar, permintaan Anda gagal. Anda dapat secara opsional menentukan IAM peran dalam permintaan Anda dengan menyertakan DataAccessRoleArn parameter. Untuk informasi selengkapnya tentang IAM peran dan kebijakan di Amazon Transcribe, lihatContoh kebijakan berbasis identitas Amazon Transcribe.