Menggunakan filter kosakata khusus - Amazon Transcribe

Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.

Menggunakan filter kosakata khusus

Setelah filter kosakata kustom Anda dibuat, Anda dapat memasukkannya ke dalam permintaan transkripsi Anda; lihat bagian berikut untuk contoh.

Bahasa filter kosakata khusus yang Anda sertakan dalam permintaan harus sesuai dengan kode bahasa yang Anda tentukan untuk media Anda. Jika Anda menggunakan identifikasi bahasa dan menentukan beberapa opsi bahasa, Anda dapat menyertakan satu filter kosakata khusus per bahasa tertentu. Jika bahasa filter kosakata kustom Anda tidak cocok dengan bahasa yang diidentifikasi dalam audio Anda, filter Anda tidak diterapkan ke transkripsi Anda dan tidak ada peringatan atau kesalahan.

Menggunakan filter kosakata khusus dalam transkripsi batch

Untuk menggunakan filter kosakata khusus dengan transkripsi batch, lihat contoh berikut ini:

  1. Masuk ke AWS Management Console.

  2. Di panel navigasi, pilih Pekerjaan transkripsi, lalu pilih Buat pekerjaan (kanan atas). Ini membuka halaman Tentukan detail pekerjaan.

    
                    Amazon Transcribescreenshot konsol: halaman 'tentukan pengaturan pekerjaan'.

    Beri nama pekerjaan Anda dan tentukan media masukan Anda. Secara opsional sertakan bidang lain, lalu pilih Berikutnya.

  3. Pada halaman Configure job, di panel Content removal, aktifkan Vocabulary filtering.

    
                    Amazon Transcribekonsol screenshot: 'mengkonfigurasi pekerjaan' halaman.
  4. Pilih filter kosakata khusus Anda dari menu dropdown dan tentukan metode filtrasi.

    
                    Amazon Transcribescreenshot konsol: opsi pemilihan filter kosakata.
  5. Pilih Buat pekerjaan untuk menjalankan pekerjaan transkripsi Anda.

Contoh ini menggunakan start-transcription-jobperintah danSettings parameter denganVocabularyFilterName danVocabularyFilterMethod sub-parameter. Untuk informasi selengkapnya, lihat StartTranscriptionJob dan Settings.

aws transcribe start-transcription-job \ --region us-west-2 \ --transcription-job-name my-first-transcription-job \ --media MediaFileUri=s3://DOC-EXAMPLE-BUCKET/my-input-files/my-media-file.flac \ --output-bucket-name DOC-EXAMPLE-BUCKET \ --output-key my-output-files/ \ --language-code en-US \ --settings VocabularyFilterName=my-first-vocabulary-filter,VocabularyFilterMethod=mask

Berikut contoh lain menggunakan start-transcription-jobperintah, dan badan permintaan yang menyertakan filter kosakata kustom Anda dengan pekerjaan itu.

aws transcribe start-transcription-job \ --region us-west-2 \ --cli-input-json file://my-first-vocabulary-filter-job.json

File my-first-vocabulary-filter-job.json berisi badan permintaan berikut.

{ "TranscriptionJobName": "my-first-transcription-job", "Media": { "MediaFileUri": "s3://DOC-EXAMPLE-BUCKET/my-input-files/my-media-file.flac" }, "OutputBucketName": "DOC-EXAMPLE-BUCKET", "OutputKey": "my-output-files/", "LanguageCode": "en-US", "Settings": { "VocabularyFilterName": "my-first-vocabulary-filter", "VocabularyFilterMethod": "mask" } }

Contoh ini menggunakanAWS SDK for Python (Boto3) untuk menyertakan kosakata kustom filter menggunakanSettings argumen untuk metode start_transcription_job. Untuk informasi selengkapnya, lihat StartTranscriptionJob dan Settings.

Untuk contoh tambahan yang menggunakanAWS SDK, termasuk contoh spesifik-fitur, skenario, dan lintas-layanan, lihat bagianContoh kode untuk Amazon Transcribe menggunakan SDK AWS ini.

from __future__ import print_function import time import boto3 transcribe = boto3.client('transcribe', 'us-west-2') job_name = "my-first-transcription-job" job_uri = "s3://DOC-EXAMPLE-BUCKET/my-input-files/my-media-file.flac" transcribe.start_transcription_job( TranscriptionJobName = job_name, Media = { 'MediaFileUri': job_uri }, OutputBucketName = 'DOC-EXAMPLE-BUCKET', OutputKey = 'my-output-files/', LanguageCode = 'en-US', Settings = { 'VocabularyFilterName': 'my-first-vocabulary-filter', 'VocabularyFilterMethod': 'mask' } ) while True: status = transcribe.get_transcription_job(TranscriptionJobName = job_name) if status['TranscriptionJob']['TranscriptionJobStatus'] in ['COMPLETED', 'FAILED']: break print("Not ready yet...") time.sleep(5) print(status)

Menggunakan filter kosakata khusus dalam transkripsi streaming

Untuk menggunakan filter kosakata khusus dengan transkripsi streaming, lihat contoh berikut ini:

  1. Masuk ke dalam AWS Management Console.

  2. Di panel navigasi, pilih Transkripsi waktu nyata. Gulir ke bawah ke Pengaturan penghapusan konten dan perluas bidang ini jika diminimalkan.

    
                    Amazon Transcribescreenshot konsol: halaman 'transkripsi waktu'.
  3. Aktifkan penyaringan Kosakata. Pilih filter kosakata khusus dari menu dropdown dan tentukan metode filtrasi.

    
                    Amazon Transcribescreenshot konsol: panel 'pengaturan penghapusan konten' yang diperluas.

    Sertakan pengaturan lain yang ingin Anda terapkan ke aliran Anda.

  4. Sekarang Anda siap untuk menyalin aliran Anda. Pilih Mulai streaming dan mulai berbicara. Untuk mengakhiri dikte Anda, pilih Hentikan streaming.

Contoh ini membuat permintaan HTTP/2 yang menyertakan kosakata kustom Anda filter dan metode filter. Untuk informasi lebih lanjut tentang menggunakan HTTP/2 streaming denganAmazon Transcribe, lihatMenyiapkan aliran HTTP/2. Untuk detail lebih lanjut tentang parameter dan header khusus untukAmazon Transcribe, lihat StartStreamTranscription.

POST /stream-transcription HTTP/2 host: transcribestreaming.us-west-2.amazonaws.com X-Amz-Target: com.amazonaws.transcribe.Transcribe.StartStreamTranscription Content-Type: application/vnd.amazon.eventstream X-Amz-Content-Sha256: string X-Amz-Date: 20220208T235959Z Authorization: AWS4-HMAC-SHA256 Credential=access-key/20220208/us-west-2/transcribe/aws4_request, SignedHeaders=content-type;host;x-amz-content-sha256;x-amz-date;x-amz-target;x-amz-security-token, Signature=string x-amzn-transcribe-language-code: en-US x-amzn-transcribe-media-encoding: flac x-amzn-transcribe-sample-rate: 16000 x-amzn-transcribe-vocabulary-filter-name: my-first-vocabulary-filter x-amzn-transcribe-vocabulary-filter-method: mask transfer-encoding: chunked

Definisi parameter dapat ditemukan di Referensi API; parameter yang umum untuk semua operasiAWS API dicantumkan di bagian Parameter Umum.

Contoh ini membuat URL yang telah ditandatangani sebelumnya yang menerapkan filter kosakata khusus Anda ke WebSocket stream. Jeda baris telah ditambahkan untuk keterbacaan. Untuk informasi lebih lanjut tentang menggunakan WebSocket stream denganAmazon Transcribe, lihatMenyiapkan WebSocket aliran. Untuk detail lebih lanjut tentang parameter, lihat StartStreamTranscription.

GET wss://transcribestreaming.us-west-2.amazonaws.com:8443/stream-transcription-websocket? &X-Amz-Algorithm=AWS4-HMAC-SHA256 &X-Amz-Credential=AKIAIOSFODNN7EXAMPLE%2F20220208%2Fus-west-2%2Ftranscribe%2Faws4_request &X-Amz-Date=20220208T235959Z &X-Amz-Expires=300 &X-Amz-Security-Token=security-token &X-Amz-Signature=string &X-Amz-SignedHeaders=content-type%3Bhost%3Bx-amz-date &language-code=en-US &media-encoding=flac &sample-rate=16000 &vocabulary-filter-name=my-first-vocabulary-filter &vocabulary-filter-method=mask

Definisi parameter dapat ditemukan di Referensi API; parameter yang umum untuk semua operasiAWS API dicantumkan di bagian Parameter Umum.