Transkripsi alternatif - Amazon Transcribe

Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.

Transkripsi alternatif

KetikaAmazon Transcribe mentranskripsi audio, itu menciptakan versi yang berbeda dari transkrip yang sama dan memberikan skor kepercayaan untuk setiap versi. Dalam transkripsi khas, Anda hanya mendapatkan versi dengan skor kepercayaan tertinggi.

Jika Anda mengaktifkan transkripsi alternatif,Amazon Transcribe kembalikan versi lain dari transkrip Anda yang memiliki tingkat kepercayaan yang lebih rendah. Anda dapat memilih untuk mengembalikan hingga 10 transkripsi alternatif. Jika Anda menentukan sejumlah besar alternatif daripada apaAmazon Transcribe mengidentifikasi, hanya jumlah aktual alternatif dikembalikan.

Semua alternatif terletak di file output transkripsi yang sama dan disajikan pada tingkat segmen. Segmen adalah jeda alami dalam pidato, seperti perubahan speaker atau jeda dalam audio.

Transkripsi alternatif hanya tersedia untuk transkripsi batch.

Keluaran transkripsi memiliki struktur sebagai berikut: Elips (... ) dalam contoh kode menunjukkan di mana konten telah dihapus untuk singkatnya.

  1. Sebuah transkripsi akhir lengkap untuk segmen tertentu.

    "results": { "language_code": "en-US", "transcripts": [ { "transcript": "The amazon is the largest rainforest on the planet." } ],
  2. Skor kepercayaan untuk setiap kata ditranscript bagian sebelumnya.

    "items": [ { "start_time": "1.15", "end_time": "1.35", "alternatives": [ { "confidence": "1.0", "content": "The" } ], "type": "pronunciation" }, { "start_time": "1.35", "end_time": "2.05", "alternatives": [ { "confidence": "1.0", "content": "amazon" } ], "type": "pronunciation" },
  3. Transkripsi alternatif Anda terletak disegments bagian output transkripsi Anda. Alternatif untuk setiap segmen diurutkan dengan skor kepercayaan menurun.

    "segments": [ { "start_time": "1.04", "end_time": "5.065", "alternatives": [ { ... "transcript": "The amazon is the largest rain forest on the planet.", "items": [ { "start_time": "1.15", "confidence": "1.0", "end_time": "1.35", "type": "pronunciation", "content": "The" }, ... { "start_time": "3.06", "confidence": "0.0037", "end_time": "3.38", "type": "pronunciation", "content": "rain" }, { "start_time": "3.38", "confidence": "0.0037", "end_time": "3.96", "type": "pronunciation", "content": "forest" },
  4. Status di akhir output transkripsi Anda.

    "status": "COMPLETED" }

Meminta transkripsi alternatif

Anda dapat meminta transkripsi alternatif menggunakan AWS Management Console, AWS CLI, atau AWSSDK; lihat contoh berikut ini:

  1. Masuk ke AWS Management Console.

  2. Di panel navigasi, pilih Pekerjaan transkripsi, lalu pilih Buat pekerjaan (kanan atas). Ini membuka halaman Tentukan detail pekerjaan.

    Amazon Transcribekonsol 'Tentukan rincian pekerjaan' halaman. Di panel 'Pengaturan pekerjaan', Anda dapat menentukan nama untuk Job transkripsi Anda, memilih jenis Model, dan menentukan pengaturan bahasa Anda.
  3. Isi kolom apa pun yang ingin Anda sertakan di halaman Tentukan detail pekerjaan, lalu pilih Berikutnya. Ini akan membawa Anda ke halaman Konfigurasi pekerjaan - opsional.

    Pilih Hasil alternatif dan tentukan jumlah maksimum hasil transkripsi alternatif yang Anda inginkan dalam transkrip Anda.

    Amazon Transcribekonsol 'Konfigurasi pekerjaan' halaman. Di panel 'Pengaturan audio', Anda dapat mengaktifkan Hasil alternatif dan menentukan jumlah alternatif maksimum yang ingin Anda sertakan dalam output transkripsi Anda.
  4. Pilih Buat pekerjaan untuk menjalankan pekerjaan transkripsi Anda.

Contoh ini menggunakan start-transcription-jobperintah danShowAlternatives parameter. Untuk informasi selengkapnya, lihat StartTranscriptionJob dan ShowAlternatives.

Perhatikan bahwa jika Anda menyertakanShowAlternatives=true dalam permintaan Anda, Anda juga harus menyertakannyaMaxAlternatives.

aws transcribe start-transcription-job \ --region us-west-2 \ --transcription-job-name my-first-transcription-job \ --media MediaFileUri=s3://DOC-EXAMPLE-BUCKET/my-input-files/my-media-file.flac \ --output-bucket-name DOC-EXAMPLE-BUCKET \ --output-key my-output-files/ \ --language-code en-US \ --settings ShowAlternatives=true,MaxAlternatives=4

Berikut contoh lain menggunakan start-transcription-jobperintah, dan badan permintaan yang menyertakan transkripsi alternatif.

aws transcribe start-transcription-job \ --region us-west-2 \ --cli-input-json file://filepath/my-first-alt-transcription-job.json

File my-first-alt-transcription-job.json berisi badan permintaan berikut.

{ "TranscriptionJobName": "my-first-transcription-job", "Media": { "MediaFileUri": "s3://DOC-EXAMPLE-BUCKET/my-input-files/my-media-file.flac" }, "OutputBucketName": "DOC-EXAMPLE-BUCKET", "OutputKey": "my-output-files/", "LanguageCode": "en-US", "Settings": { "ShowAlternatives": true, "MaxAlternatives": 4 } }

Contoh berikut menggunakanAWS SDK for Python (Boto3) untuk meminta transkripsi alternatif dengan menggunakanShowAlternatives argumen untuk metode start_transcription_job. Untuk informasi selengkapnya, lihat StartTranscriptionJob dan ShowAlternatives.

Untuk contoh tambahan yang menggunakanAWS SDK, termasuk contoh spesifik-fitur, skenario, dan lintas-layanan, lihat bagianContoh kode untuk Amazon Transcribe menggunakan AWS SDKs ini.

Perhatikan bahwa jika Anda menyertakan'ShowAlternatives':True dalam permintaan Anda, Anda juga harus menyertakannyaMaxAlternatives.

from __future__ import print_function import time import boto3 transcribe = boto3.client('transcribe', 'us-west-2') job_name = "my-first-transcription-job" job_uri = "s3://DOC-EXAMPLE-BUCKET/my-input-files/my-media-file.flac" transcribe.start_transcription_job( TranscriptionJobName = job_name, Media = { 'MediaFileUri': job_uri }, OutputBucketName = 'DOC-EXAMPLE-BUCKET', OutputKey = 'my-output-files/', LanguageCode = 'en-US', Settings = { 'ShowAlternatives':True, 'MaxAlternatives':4 } ) while True: status = transcribe.get_transcription_job(TranscriptionJobName = job_name) if status['TranscriptionJob']['TranscriptionJobStatus'] in ['COMPLETED', 'FAILED']: break print("Not ready yet...") time.sleep(5) print(status)