Input dan output data - Amazon Transcribe

Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.

Input dan output data

Amazon Transcribe mengambil data audio, sebagai file media dalam Amazon S3 ember atau aliran media, dan mengubahnya menjadi data teks.

Jika Anda mentranskripsikan file media yang disimpan dalam Amazon S3 ember, Anda melakukan transkripsi batch. Jika Anda mentranskripsikan aliran media, Anda melakukan transkripsi streaming. Kedua proses ini memiliki aturan dan persyaratan yang berbeda.

Dengan transkripsi batch, Anda dapat menggunakan Membatasi jika Anda tidak perlu memproses semua pekerjaan transkripsi Anda secara bersamaan. Ini memungkinkan Amazon Transcribe untuk melacak pekerjaan transkripsi Anda dan memprosesnya saat slot tersedia.

catatan

Amazon Transcribe dapat menyimpan konten Anda untuk sementara waktu untuk terus meningkatkan kualitas model analisisnya. Lihat Amazon Transcribe FAQuntuk mempelajari lebih lanjut. Untuk meminta penghapusan konten yang mungkin telah disimpan oleh Amazon Transcribe, buka kasing dengan. AWS Support

Format media

Jenis media yang didukung berbeda antara transkripsi batch dan transkripsi streaming, meskipun format lossless direkomendasikan untuk keduanya. Lihat tabel berikut untuk detailnya:

Batch

Streaming

Format yang didukung

  • AMR

  • FLAC

  • M4A

  • MP3

  • MP4

  • Ogg

  • WebM

  • WAV

  • FLAC

  • Ogg Opus

  • PCMpengkodean

Format yang direkomendasikan

  • FLAC

  • WAVdengan PCM pengkodean 16-bit

  • FLAC

  • PCMaudio endian kecil 16-bit yang ditandatangani (perhatikan bahwa ini tidak termasuk) WAV

Untuk hasil terbaik, gunakan format lossless, seperti FLAC atau WAV dengan pengkodean PCM 16-bit.

catatan

Transkripsi streaming tidak didukung dengan semua bahasa. Lihat kolom 'Input data' dalam tabel bahasa yang didukung untuk detailnya.

Saluran audio

Amazon Transcribe mendukung media saluran tunggal dan saluran ganda. Media dengan lebih dari dua saluran saat ini tidak didukung.

Jika audio Anda berisi beberapa speaker pada satu saluran dan Anda ingin mempartisi dan memberi label pada setiap speaker dalam output transkripsi Anda, Anda dapat menggunakan partisi Speaker (diarisasi).

Jika audio Anda berisi ucapan di dua saluran terpisah, Anda dapat menggunakan identifikasi Saluran untuk mentranskripsikan setiap saluran secara terpisah dalam transkrip Anda.

Kedua opsi ini menghasilkan satu file transkrip.

catatan

Jika Anda tidak mengaktifkan partisi Speaker atau identifikasi Saluran, teks transkrip Anda disediakan sebagai satu bagian berkelanjutan.

Tarif sampel

Dengan pekerjaan transkripsi batch, Anda dapat memilih untuk memberikan laju sampel, meskipun parameter ini opsional. Jika Anda memasukkannya dalam permintaan Anda, pastikan nilai yang Anda berikan cocok dengan laju sampel aktual dalam audio Anda. Jika Anda memberikan sample rate yang tidak sesuai dengan audio Anda, pekerjaan Anda mungkin gagal.

Dengan transkripsi streaming, Anda harus menyertakan laju sampel dalam permintaan Anda. Seperti halnya pekerjaan transkripsi batch, pastikan nilai yang Anda berikan cocok dengan laju sampel aktual dalam audio Anda.

Kecepatan sampel untuk audio dengan kesetiaan rendah, seperti rekaman telepon, biasanya menggunakan 8.000 Hz. Untuk audio dengan kesetiaan tinggi, Amazon Transcribe mendukung nilai antara 16.000 Hz dan 48.000 Hz.

Output

Output transkripsi dalam JSON format. Bagian pertama transkrip Anda berisi transkrip itu sendiri dalam bentuk paragraf, diikuti dengan data tambahan untuk setiap kata dan tanda baca. Data yang diberikan tergantung pada fitur yang Anda sertakan dalam permintaan Anda. Minimal, transkrip Anda berisi waktu mulai, waktu akhir, dan skor kepercayaan untuk setiap kata. Bagian berikut menunjukkan contoh keluaran dari permintaan transkripsi dasar yang tidak menyertakan opsi atau fitur tambahan apa pun.

Semua transkrip batch disimpan dalam Amazon S3 ember. Anda dapat memilih untuk menyimpan transkrip di Amazon S3 bucket Anda sendiri, atau Amazon Transcribe menggunakan bucket default yang aman. Untuk mempelajari lebih lanjut tentang membuat dan menggunakan Amazon S3 bucket, lihat Bekerja dengan bucket.

Jika Anda ingin transkrip Anda disimpan dalam Amazon S3 ember yang Anda miliki, tentukan bucket URI dalam permintaan transkripsi Anda. Pastikan Anda memberikan izin Amazon Transcribe menulis untuk bucket ini sebelum memulai pekerjaan transkripsi batch Anda. Jika Anda menentukan bucket Anda sendiri, transkrip Anda tetap berada di ember itu sampai Anda menghapusnya.

Jika Anda tidak menentukan Amazon S3 bucket, Amazon Transcribe gunakan bucket yang dikelola layanan yang aman dan memberi Anda waktu sementara yang dapat URI Anda gunakan untuk mengunduh transkrip Anda. Perhatikan bahwa sementara URIs berlaku selama 15 menit. Jika Anda mendapatkan AccessDenied kesalahan saat menggunakan yang disediakanURI, buat GetTranscriptionJob permintaan untuk mendapatkan transkrip sementara URI baru.

Jika Anda memilih bucket default, transkrip Anda akan dihapus ketika pekerjaan Anda kedaluwarsa (90 hari). Jika Anda ingin menyimpan transkrip Anda melewati tanggal kedaluwarsa ini, Anda harus mengunduhnya.

Transkrip streaming dikembalikan melalui metode yang sama yang Anda gunakan untuk streaming Anda.

Tip

Jika Anda ingin mengubah JSON output Anda menjadi turn-by-turn transkrip dalam format Word, lihat GitHub contoh ini (untuk Python3). Skrip ini berfungsi dengan transkrip analitik pasca-panggilan dan transkrip batch standar dengan diarisasi diaktifkan.

Contoh Output

Transkrip memberikan transkripsi lengkap dalam bentuk paragraf, diikuti dengan word-for-word perincian, yang menyediakan data untuk setiap kata dan tanda baca. Ini termasuk waktu mulai, waktu akhir, skor kepercayaan diri, dan tipe (pronunciationataupunctuation).

Contoh berikut adalah dari pekerjaan transkripsi batch sederhana yang tidak menyertakan fitur tambahan apa pun. Dengan setiap fitur tambahan yang Anda terapkan pada permintaan transkripsi Anda, Anda mendapatkan data tambahan dalam file keluaran transkrip Anda.

Transkrip batch dasar berisi dua bagian utama:

  1. transcripts: Berisi seluruh transkrip dalam satu blok teks.

  2. items: Berisi informasi tentang setiap kata dan tanda baca dari bagian. transcripts

  3. audio_segmentsSegmen audio adalah bagian tertentu dari rekaman audio yang berisi bahasa lisan tanpa gangguan, dengan jeda atau jeda minimal. Segmen ini menangkap aliran bicara alami dan ditangkap audio_segments dengan waktu mulai dan waktu akhir. itemsElemen dalam segmen audio adalah urutan pengidentifikasi yang sesuai dengan setiap item dalam segmen.

Setiap fitur tambahan yang Anda sertakan dalam permintaan transkripsi menghasilkan informasi tambahan dalam transkrip Anda.

{ "jobName": "my-first-transcription-job", "accountId": "111122223333", "results": { "transcripts": [ { "transcript": "Welcome to Amazon Transcribe." } ], "items": [ { "id": 0, "start_time": "0.64", "end_time": "1.09", "alternatives": [ { "confidence": "1.0", "content": "Welcome" } ], "type": "pronunciation" }, { "id": 1, "start_time": "1.09", "end_time": "1.21", "alternatives": [ { "confidence": "1.0", "content": "to" } ], "type": "pronunciation" }, { "id": 2, "start_time": "1.21", "end_time": "1.74", "alternatives": [ { "confidence": "1.0", "content": "Amazon" } ], "type": "pronunciation" }, { "id": 3, "start_time": "1.74", "end_time": "2.56", "alternatives": [ { "confidence": "1.0", "content": "Transcribe" } ], "type": "pronunciation" }, { "id": 4, "alternatives": [ { "confidence": "0.0", "content": "." } ], "type": "punctuation" } ], "audio_segments": [ { "id": 0, "transcript": "Welcome to Amazon Transcribe.", "start_time": "0.64", "end_time": "2.56", "items": [ 0, 1, 2, 3, 4 ] } ] }, "status": "COMPLETED" }