Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.
Streaming dan hasil sebagian
Karena streaming bekerja secara real time, transkrip diproduksi dalam hasil sebagian. Amazon Transcribe memecah aliran audio yang masuk berdasarkan segmen ucapan alami, seperti perubahan speaker atau jeda dalam audio. Transkripsi dikembalikan ke aplikasi Anda dalam aliran peristiwa transkripsi, dengan setiap respons berisi lebih banyak ucapan yang ditranskripsi hingga seluruh segmen ditranskripsi.
Perkiraan ini ditunjukkan dalam blok kode berikut. Anda dapat melihat proses ini dalam tindakan dengan masuk ke AWS Management Console
Dalam contoh ini, setiap baris adalah hasil sebagian dari segmen audio.
The
The Amazon.
The Amazon is
The Amazon is the law.
The Amazon is the largest
The Amazon is the largest ray
The Amazon is the largest rain for
The Amazon is the largest rainforest.
The Amazon is the largest rainforest on the
The Amazon is the largest rainforest on the planet.
Hasil sebagian ini ada dalam output transkripsi Anda di dalam Results
objek. Juga di blok objek ini adalah IsPartialbidang. Jika bidang ini benar, segmen transkripsi Anda belum lengkap. Anda dapat melihat perbedaan antara segmen yang tidak lengkap dan lengkap di bawah ini:
"IsPartial": true (incomplete segment)
"Transcript": "The Amazon is the largest rainforest." "EndTime": 4.545, "IsPartial": true, "ResultId": "12345a67-8bc9-0de1-2f34-a5b678c90d12", "StartTime": 0.025"IsPartial": false (complete segment)
"Transcript": "The Amazon is the largest rainforest on the planet." "EndTime": 6.025, "IsPartial": false, "ResultId": "34567e89-0fa1-2bc3-4d56-78e90123456f", "StartTime": 0.025
Setiap kata dalam segmen lengkap memiliki skor kepercayaan terkait, yang merupakan nilai antara 0
dan1
. Nilai yang lebih besar menunjukkan kemungkinan yang lebih besar bahwa kata tersebut ditranskripsi dengan benar.
Tip
Segmen StartTime
dan EndTime
audio dapat digunakan untuk menyinkronkan output transkripsi dengan dialog video.
Jika Anda menjalankan aplikasi yang membutuhkan latensi rendah, Anda mungkin ingin menggunakan stabilisasi hasil sebagian.
Stabilisasi hasil sebagian
Amazon Transcribe mulai mengembalikan hasil transkripsi segera setelah Anda mulai streaming audio Anda. Ini mengembalikan hasil sebagian ini secara bertahap sampai menghasilkan hasil akhir pada tingkat segmen ucapan alami. Segmen ucapan alami adalah ucapan berkelanjutan yang berisi jeda atau perubahan pembicara.
Amazon Transcribe terus mengeluarkan sebagian hasil sampai menghasilkan hasil transkripsi akhir untuk segmen bicara. Karena pengenalan suara dapat merevisi kata-kata karena memperoleh lebih banyak konteks, transkripsi streaming dapat sedikit berubah dengan setiap keluaran hasil parsi baru.
Proses ini memberi Anda dua opsi untuk setiap segmen pidato:
-
Tunggu segmen jadi
-
Gunakan hasil sebagian segmen
Stabilisasi hasil sebagian mengubah cara Amazon Transcribe menghasilkan hasil transkripsi akhir untuk setiap segmen lengkap. Saat diaktifkan, hanya beberapa kata terakhir dari hasil sebagian yang dapat berubah. Karena itu, akurasi transkripsi mungkin terpengaruh. Namun, transkrip Anda dikembalikan lebih cepat daripada tanpa stabilisasi hasil sebagian. Pengurangan latensi ini mungkin bermanfaat saat membuat subtitling video atau membuat teks untuk streaming langsung.
Contoh berikut menunjukkan bagaimana aliran audio yang sama ditangani ketika stabilisasi hasil sebagian tidak diaktifkan dan kapan itu. Perhatikan bahwa Anda dapat mengatur tingkat stabilitas ke rendah, sedang, atau tinggi. Stabilitas rendah memberikan akurasi tertinggi. Stabilitas tinggi mentranskripsi lebih cepat, tetapi dengan akurasi yang sedikit lebih rendah.
“Transkrip”: |
"EndTime": |
"IsPartial": |
---|---|---|
Stabilisasi hasil sebagian tidak diaktifkan |
||
|
|
|
Stabilisasi hasil sebagian diaktifkan (stabilitas tinggi) |
||
|
|
|
Saat Anda mengaktifkan stabilisasi hasil sebagian, Amazon Transcribe gunakan Stable
bidang untuk menunjukkan apakah suatu item stabil, di mana 'item' mengacu pada kata yang ditranskripsi atau tanda baca. Nilai untuk Stable
adalah true
ataufalse
. Item yang ditandai sebagai false
(tidak stabil) lebih mungkin berubah saat segmen Anda ditranskripsi. Sebaliknya, item yang ditandai sebagai true
(stabil) tidak akan berubah.
Anda dapat memilih untuk membuat kata-kata yang tidak stabil sehingga teks Anda sejajar dengan ucapan. Bahkan jika teks sedikit berubah saat konteks ditambahkan, ini adalah pengalaman pengguna yang lebih baik daripada semburan teks berkala, yang mungkin atau mungkin tidak selaras dengan ucapan.
Anda juga dapat memilih untuk menampilkan kata-kata yang tidak stabil dalam format yang berbeda, seperti miring, untuk menunjukkan kepada pemirsa bahwa kata-kata ini dapat berubah. Menampilkan sebagian hasil membatasi jumlah teks yang ditampilkan pada waktu tertentu. Ini bisa menjadi penting ketika Anda berurusan dengan kendala ruang, seperti dengan teks video.
Menyelam lebih dalam dengan Blog AWS Machine Learning
Untuk mempelajari lebih lanjut tentang meningkatkan akurasi dengan transkripsi waktu nyata, lihat:
Output contoh stabilisasi hasil sebagian
Contoh output berikut menunjukkan Stable
flag untuk segmen yang tidak lengkap ()"IsPartial": true
. Anda dapat melihat bahwa kata-kata "to" dan "Amazon" tidak stabil dan karenanya dapat berubah sebelum segmen diselesaikan.
"Transcript": { "Results": [ { "Alternatives": [ { "Items": [ { "Content": "Welcome", "EndTime": 2.4225, "Stable": true, "StartTime": 1.65, "Type": "pronunciation", "VocabularyFilterMatch": false }, { "Content": "to", "EndTime": 2.8325, "Stable": false, "StartTime": 2.4225, "Type": "pronunciation", "VocabularyFilterMatch": false }, { "Content": "Amazon", "EndTime": 3.635, "Stable": false, "StartTime": 2.8325, "Type": "pronunciation", "VocabularyFilterMatch": false }, { "Content": ".", "EndTime": 3.635, "Stable": false, "StartTime": 3.635, "Type": "punctuation", "VocabularyFilterMatch": false } ], "Transcript": "Welcome to Amazon." } ], "EndTime": 4.165, "IsPartial": true, "ResultId": "12345a67-8bc9-0de1-2f34-a5b678c90d12", "StartTime": 1.65 } ] }