Membuat video - Amazon Transcribe

Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.

Membuat video

Amazon Transcribemendukung WebVTT (*.vtt) dan SubRip (*.srt) output untuk digunakan sebagai subtitle video. Anda dapat memilih satu atau kedua jenis file saat menyiapkan pekerjaan transkripsi video batch Anda. Saat menggunakan fitur subtitle, file subtitle yang Anda pilih dan file transkrip reguler (berisi informasi tambahan) diproduksi. File subtitle dan transkripsi adalah output ke tujuan yang sama.

Teks ditampilkan pada saat yang sama teks diucapkan, dan tetap terlihat sampai ada jeda alami atau pembicara selesai berbicara. Perhatikan bahwa jika Anda mengaktifkan subtitle dalam permintaan transkripsi dan audio Anda tidak mengandung ucapan, file subtitle tidak dibuat.

penting

Amazon Transcribemenggunakan indeks awal default 0 untuk output subtitle, yang berbeda dari nilai yang lebih banyak digunakan. 1 Jika Anda memerlukan indeks awal1, Anda dapat menentukan ini dalam AWS Management Console atau dalam permintaan API Anda menggunakan OutputStartIndexparameter.

Menggunakan indeks awal yang salah dapat mengakibatkan kesalahan kompatibilitas dengan layanan lain, jadi pastikan untuk memverifikasi indeks awal mana yang Anda butuhkan sebelum membuat subtitle Anda. Jika Anda tidak yakin nilai mana yang akan digunakan, sebaiknya pilih1. Lihat Subtitlesuntuk informasi lebih lanjut.

Fitur yang didukung dengan subtitle:

  • Redaksi konten - Setiap konten yang disunting tercermin sebagai 'PII' dalam file keluaran subtitle dan transkrip reguler Anda. Audio tidak diubah.

  • Filter kosakata - File subtitle dihasilkan dari file transkripsi, sehingga setiap kata yang Anda filter dalam output transkripsi standar Anda juga disaring dalam subtitle Anda. Konten yang difilter ditampilkan sebagai spasi atau *** dalam file transkrip dan subtitle Anda. Audio tidak diubah.

  • Diarisasi speaker - Jika ada beberapa speaker di segmen subtitle tertentu, tanda hubung digunakan untuk membedakan setiap pembicara. Ini berlaku untuk WebVTT dan SubRip format; misalnya:

    • -- Teks yang diucapkan oleh Orang 1

    • -- Teks yang diucapkan oleh Orang 2

File subtitle disimpan di Amazon S3 lokasi yang sama dengan output transkripsi Anda.

Untuk panduan video dalam membuat subtitle, lihat:

Menghasilkan file subtitle

Anda dapat membuat file subtitle menggunakan AWS Management Console, AWS CLI, atau AWSSDK; lihat contoh berikut:

  1. Masuk ke AWS Management Console.

  2. Di panel navigasi, pilih Pekerjaan transkripsi, lalu pilih Buat pekerjaan (kanan atas). Ini membuka halaman Tentukan detail pekerjaan. Opsi subtitle terletak di panel Data keluaran.

  3. Pilih format yang Anda inginkan untuk file subtitle Anda, lalu pilih nilai untuk indeks awal Anda. Perhatikan bahwa Amazon Transcribe defaultnya 1 adalah0, tetapi lebih banyak digunakan. Jika Anda tidak yakin nilai mana yang akan digunakan, sebaiknya pilih1, karena ini dapat meningkatkan kompatibilitas dengan layanan lain.

    Amazon Transcribescreenshot konsol: panel 'data keluaran' pada halaman 'tentukan detail pekerjaan'.
  4. Isi kolom lain yang ingin Anda sertakan di halaman Tentukan detail pekerjaan, lalu pilih Berikutnya. Ini akan membawa Anda ke halaman Konfigurasi pekerjaan - opsional.

  5. Pilih Buat pekerjaan untuk menjalankan pekerjaan transkripsi Anda.

Contoh ini menggunakan start-transcription-jobperintah dan Subtitles parameter. Untuk informasi selengkapnya, lihat StartTranscriptionJob dan Subtitles.

aws transcribe start-transcription-job \ --region us-west-2 \ --transcription-job-name my-first-transcription-job \ --media MediaFileUri=s3://DOC-EXAMPLE-BUCKET/my-input-files/my-media-file.flac \ --output-bucket-name DOC-EXAMPLE-BUCKET \ --output-key my-output-files/ \ --language-code en-US \ --subtitles Formats=vtt,srt,OutputStartIndex=1

Berikut contoh lain menggunakan start-transcription-jobperintah, dan badan permintaan yang menambahkan subtitle ke pekerjaan itu.

aws transcribe start-transcription-job \ --region us-west-2 \ --cli-input-json file://my-first-subtitle-job.json

File my-first-subtitle-job.json berisi badan permintaan berikut.

{ "TranscriptionJobName": "my-first-transcription-job", "Media": { "MediaFileUri": "s3://DOC-EXAMPLE-BUCKET/my-input-files/my-media-file.flac" }, "OutputBucketName": "DOC-EXAMPLE-BUCKET", "OutputKey": "my-output-files/", "LanguageCode": "en-US", "Subtitles": { "Formats": [ "vtt","srt" ], "OutputStartIndex": 1 } }

Contoh ini menggunakan AWS SDK for Python (Boto3) untuk menambahkan subtitle menggunakan Subtitles argumen untuk metode start_transcription_job. Untuk informasi selengkapnya, lihat StartTranscriptionJob dan Subtitles.

Untuk contoh tambahan yang menggunakan AWS SDK, termasuk contoh spesifik-fitur, skenario, dan lintas-layanan, lihat bagian ini. Contoh kode untuk Amazon Transcribe menggunakan SDK AWS

from __future__ import print_function import time import boto3 transcribe = boto3.client('transcribe', 'us-west-2') job_name = "my-first-transcription-job" job_uri = "s3://DOC-EXAMPLE-BUCKET/my-input-files/my-media-file.flac" transcribe.start_transcription_job( TranscriptionJobName = job_name, Media = { 'MediaFileUri': job_uri }, OutputBucketName = 'DOC-EXAMPLE-BUCKET', OutputKey = 'my-output-files/', LanguageCode = 'en-US', Subtitles = { 'Formats': [ 'vtt','srt' ], 'OutputStartIndex': 1 } ) while True: status = transcribe.get_transcription_job(TranscriptionJobName = job_name) if status['TranscriptionJob']['TranscriptionJobStatus'] in ['COMPLETED', 'FAILED']: break print("Not ready yet...") time.sleep(5) print(status)