Menggunakan model bahasa khusus - Amazon Transcribe

Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.

Menggunakan model bahasa khusus

Setelah membuat model bahasa kustom, Anda dapat memasukkannya ke dalam permintaan transkripsi; lihat bagian berikut untuk contoh.

Bahasa model yang Anda sertakan dalam permintaan harus sesuai dengan kode bahasa yang Anda tentukan untuk media Anda. Jika bahasa tidak cocok, model bahasa kustom Anda tidak diterapkan pada transkripsi Anda dan tidak ada peringatan atau kesalahan.

Menggunakan model bahasa kustom dalam transkripsi batch

Untuk menggunakan model bahasa kustom dengan transkripsi batch, lihat contoh berikut ini:

  1. Masuk ke AWS Management Console.

  2. Di panel navigasi, pilih Pekerjaan transkripsi, lalu pilih Buat pekerjaan (kanan atas). Ini membuka halaman Tentukan detail pekerjaan.

  3. Di panel pengaturan Job di bawah Jenis model, pilih kotak Model bahasa kustom.

    Amazon Transcribescreenshot konsol: halaman 'pengaturan pekerjaan'.

    Anda juga harus memilih bahasa input dari menu dropdown.

    Amazon Transcribescreenshot konsol: halaman 'pengaturan pekerjaan' yang menampilkan menu bahasa dropdown.
  4. Di bawah Pemilihan model kustom, pilih model bahasa kustom yang ada dari menu tarik-turun atau Buat yang baru.

    TambahkanAmazon S3 lokasi file input Anda di panel Input data.

  5. Pilih Berikutnya untuk opsi konfigurasi tambahan.

    Pilih Buat pekerjaan untuk menjalankan pekerjaan transkripsi Anda.

Contoh ini menggunakan start-transcription-jobperintah danModelSettings parameter denganVocabularyName sub-parameter. Untuk informasi selengkapnya, lihat StartTranscriptionJob dan ModelSettings.

aws transcribe start-transcription-job \ --region us-west-2 \ --transcription-job-name my-first-transcription-job \ --media MediaFileUri=s3://DOC-EXAMPLE-BUCKET/my-input-files/my-media-file.flac \ --output-bucket-name DOC-EXAMPLE-BUCKET \ --output-key my-output-files/ \ --language-code en-US \ --model-settings LanguageModelName=my-first-language-model

Berikut contoh lain menggunakan start-transcription-jobperintah, dan badan permintaan yang menyertakan model bahasa kustom Anda dengan pekerjaan itu.

aws transcribe start-transcription-job \ --region us-west-2 \ --cli-input-json file://my-first-model-job.json

File my-first-model-job.json berisi badan permintaan berikut.

{ "TranscriptionJobName": "my-first-transcription-job", "Media": { "MediaFileUri": "s3://DOC-EXAMPLE-BUCKET/my-input-files/my-media-file.flac" }, "OutputBucketName": "DOC-EXAMPLE-BUCKET", "OutputKey": "my-output-files/", "LanguageCode": "en-US", "ModelSettings": { "LanguageModelName": "my-first-language-model" } }

Contoh ini menggunakanAWS SDK for Python (Boto3) untuk menyertakan model bahasa kustom menggunakanModelSettings argumen untuk metode start_transcription_job. Untuk informasi selengkapnya, lihat StartTranscriptionJob dan ModelSettings.

Untuk contoh tambahan yang menggunakanAWS SDK, termasuk contoh spesifik-fitur, skenario, dan lintas-layanan, lihat bagianContoh kode untuk Amazon Transcribe menggunakan SDK AWS ini.

from __future__ import print_function import time import boto3 transcribe = boto3.client('transcribe', 'us-west-2') job_name = "my-first-transcription-job" job_uri = "s3://DOC-EXAMPLE-BUCKET/my-input-files/my-media-file.flac" transcribe.start_transcription_job( TranscriptionJobName = job_name, Media = { 'MediaFileUri': job_uri }, OutputBucketName = 'DOC-EXAMPLE-BUCKET', OutputKey = 'my-output-files/', LanguageCode = 'en-US', ModelSettings = { 'LanguageModelName': 'my-first-language-model' } ) while True: status = transcribe.get_transcription_job(TranscriptionJobName = job_name) if status['TranscriptionJob']['TranscriptionJobStatus'] in ['COMPLETED', 'FAILED']: break print("Not ready yet...") time.sleep(5) print(status)

Menggunakan model bahasa khusus dalam transkripsi streaming

Untuk menggunakan model bahasa khusus dengan transkripsi streaming, lihat contoh berikut ini:

  1. Masuk ke dalam AWS Management Console.

  2. Di panel navigasi, pilih Transkripsi waktu nyata. Gulir ke bawah ke Kustomisasi dan perluas bidang ini jika diminimalkan.

    Amazon Transcribescreenshot konsol: halaman 'transkripsi waktu'.
  3. Aktifkan model bahasa kustom dan pilih model dari menu dropdown.

    Amazon Transcribescreenshot konsol: panel 'kustomisasi' yang diperluas.

    Sertakan setelan lain yang ingin Anda terapkan ke aliran Anda.

  4. Anda sekarang siap untuk menuliskan aliran Anda. Pilih Mulai streaming dan mulai berbicara. Untuk mengakhiri dikte Anda, pilih Hentikan streaming.

Contoh ini membuat permintaan HTTP/2 yang menyertakan model bahasa kustom Anda. Untuk informasi lebih lanjut tentang menggunakan HTTP/2 streaming denganAmazon Transcribe, lihatMenyiapkan aliran HTTP /2. Untuk detail lebih lanjut tentang parameter dan header khusus untukAmazon Transcribe, lihat StartStreamTranscription.

POST /stream-transcription HTTP/2 host: transcribestreaming.us-west-2.amazonaws.com X-Amz-Target: com.amazonaws.transcribe.Transcribe.StartStreamTranscription Content-Type: application/vnd.amazon.eventstream X-Amz-Content-Sha256: string X-Amz-Date: 20220208T235959Z Authorization: AWS4-HMAC-SHA256 Credential=access-key/20220208/us-west-2/transcribe/aws4_request, SignedHeaders=content-type;host;x-amz-content-sha256;x-amz-date;x-amz-target;x-amz-security-token, Signature=string x-amzn-transcribe-language-code: en-US x-amzn-transcribe-media-encoding: flac x-amzn-transcribe-sample-rate: 16000 x-amzn-transcribe-language-model-name: my-first-language-model transfer-encoding: chunked

Definisi parameter dapat ditemukan di Referensi API; parameter yang umum untuk semua operasiAWS API tercantum di bagian Parameter Umum.

Contoh ini membuat URL yang telah ditandatangani sebelumnya yang menerapkan model bahasa kustom Anda ke WebSocket stream. Jeda baris telah ditambahkan untuk keterbacaan. Untuk informasi lebih lanjut tentang menggunakan WebSocket stream denganAmazon Transcribe, lihatMenyiapkan WebSocket aliran. Untuk detail lebih lanjut tentang parameter, lihat StartStreamTranscription.

GET wss://transcribestreaming.us-west-2.amazonaws.com:8443/stream-transcription-websocket? &X-Amz-Algorithm=AWS4-HMAC-SHA256 &X-Amz-Credential=AKIAIOSFODNN7EXAMPLE%2F20220208%2Fus-west-2%2Ftranscribe%2Faws4_request &X-Amz-Date=20220208T235959Z &X-Amz-Expires=300 &X-Amz-Security-Token=security-token &X-Amz-Signature=string &X-Amz-SignedHeaders=content-type%3Bhost%3Bx-amz-date &language-code=en-US &media-encoding=flac &sample-rate=16000 &language-model-name=my-first-language-model

Definisi parameter dapat ditemukan di Referensi API; parameter yang umum untuk semua operasiAWS API tercantum di bagian Parameter Umum.