Streaming dan hasil sebagian - Amazon Transcribe

Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.

Streaming dan hasil sebagian

Karena streaming bekerja secara real time, transkrip diproduksi dalam hasil sebagian. Amazon Transcribe memecah aliran audio yang masuk berdasarkan segmen ucapan alami, seperti perubahan speaker atau jeda dalam audio. Transkripsi dikembalikan ke aplikasi Anda dalam aliran peristiwa transkripsi, dengan setiap respons berisi lebih banyak ucapan yang ditranskripsi hingga seluruh segmen ditranskripsi.

Perkiraan ini ditunjukkan dalam blok kode berikut. Anda dapat melihat proses ini dalam tindakan dengan masuk ke AWS Management Console, memilih Transkripsi waktu nyata, dan berbicara ke mikrofon Anda. Tonton panel keluaran Transkripsi saat Anda berbicara.

Dalam contoh ini, setiap baris adalah hasil sebagian dari segmen audio.

The The Amazon. The Amazon is The Amazon is the law. The Amazon is the largest The Amazon is the largest ray The Amazon is the largest rain for The Amazon is the largest rainforest. The Amazon is the largest rainforest on the The Amazon is the largest rainforest on the planet.

Hasil sebagian ini ada dalam output transkripsi Anda di dalam Resultsobjek. Juga di blok objek ini adalah IsPartialbidang. Jika bidang ini benar, segmen transkripsi Anda belum lengkap. Anda dapat melihat perbedaan antara segmen yang tidak lengkap dan lengkap di bawah ini:

"IsPartial": true (incomplete segment) "Transcript": "The Amazon is the largest rainforest." "EndTime": 4.545, "IsPartial": true, "ResultId": "12345a67-8bc9-0de1-2f34-a5b678c90d12", "StartTime": 0.025 "IsPartial": false (complete segment) "Transcript": "The Amazon is the largest rainforest on the planet." "EndTime": 6.025, "IsPartial": false, "ResultId": "34567e89-0fa1-2bc3-4d56-78e90123456f", "StartTime": 0.025

Setiap kata dalam segmen lengkap memiliki skor kepercayaan terkait, yang merupakan nilai antara 0 dan1. Nilai yang lebih besar menunjukkan kemungkinan yang lebih besar bahwa kata tersebut ditranskripsi dengan benar.

Tip

Segmen StartTime dan EndTime audio dapat digunakan untuk menyinkronkan output transkripsi dengan dialog video.

Jika Anda menjalankan aplikasi yang membutuhkan latensi rendah, Anda mungkin ingin menggunakan stabilisasi hasil sebagian.

Stabilisasi hasil sebagian

Amazon Transcribe mulai mengembalikan hasil transkripsi segera setelah Anda mulai streaming audio Anda. Ini mengembalikan hasil sebagian ini secara bertahap sampai menghasilkan hasil akhir pada tingkat segmen ucapan alami. Segmen ucapan alami adalah ucapan berkelanjutan yang berisi jeda atau perubahan pembicara.

Amazon Transcribe terus mengeluarkan sebagian hasil sampai menghasilkan hasil transkripsi akhir untuk segmen bicara. Karena pengenalan suara dapat merevisi kata-kata karena memperoleh lebih banyak konteks, transkripsi streaming dapat sedikit berubah dengan setiap keluaran hasil parsi baru.

Proses ini memberi Anda dua opsi untuk setiap segmen pidato:

  • Tunggu segmen jadi

  • Gunakan hasil sebagian segmen

Stabilisasi hasil sebagian mengubah cara Amazon Transcribe menghasilkan hasil transkripsi akhir untuk setiap segmen lengkap. Saat diaktifkan, hanya beberapa kata terakhir dari hasil sebagian yang dapat berubah. Karena itu, akurasi transkripsi mungkin terpengaruh. Namun, transkrip Anda dikembalikan lebih cepat daripada tanpa stabilisasi hasil sebagian. Pengurangan latensi ini mungkin bermanfaat saat membuat subtitling video atau membuat teks untuk streaming langsung.

Contoh berikut menunjukkan bagaimana aliran audio yang sama ditangani ketika stabilisasi hasil sebagian tidak diaktifkan dan kapan itu. Perhatikan bahwa Anda dapat mengatur tingkat stabilitas ke rendah, sedang, atau tinggi. Stabilitas rendah memberikan akurasi tertinggi. Stabilitas tinggi mentranskripsi lebih cepat, tetapi dengan akurasi yang sedikit lebih rendah.

“Transkrip”:

"EndTime":

"IsPartial":

Stabilisasi hasil sebagian tidak diaktifkan

The The The Amazon. The Amazon is The Amazon is the law. The Amazon is the largest The Amazon is the largest ray The Amazon is the largest rain for The Amazon is the largest rainforest. The Amazon is the largest rainforest on the The Amazon is the largest rainforest on the planet. The Amazon is the largest rainforest on the planet. The Amazon is the largest rainforest on the planet.
0.545 1.045 1.545 2.045 2.545 3.045 3.545 4.045 4.545 5.045 5.545 6.025 6.025
true true true true true true true true true true true true false

Stabilisasi hasil sebagian diaktifkan (stabilitas tinggi)

The The The Amazon. The Amazon is The Amazon is the large The Amazon is the largest The Amazon is the largest rainfall. The Amazon is the largest rain forest. The Amazon is the largest rain forest on The Amazon is the largest rain forest on the planet. The Amazon is the largest rain forest on the planet. The Amazon is the largest rain forest on the planet. The Amazon is the largest rain forest on the planet. The Amazon is the largest rain forest on the planet.
0.515 1.015 1.515 2.015 2.515 3.015 3.515 4.015 4.515 5.015 5.515 6.015 6.335 6.335
true true true true true true true true true true true true true false

Saat Anda mengaktifkan stabilisasi hasil sebagian, Amazon Transcribe gunakan Stable bidang untuk menunjukkan apakah suatu item stabil, di mana 'item' mengacu pada kata yang ditranskripsi atau tanda baca. Nilai untuk Stable adalah true ataufalse. Item yang ditandai sebagai false (tidak stabil) lebih mungkin berubah saat segmen Anda ditranskripsi. Sebaliknya, item yang ditandai sebagai true (stabil) tidak akan berubah.

Anda dapat memilih untuk membuat kata-kata yang tidak stabil sehingga teks Anda sejajar dengan ucapan. Bahkan jika teks sedikit berubah saat konteks ditambahkan, ini adalah pengalaman pengguna yang lebih baik daripada semburan teks berkala, yang mungkin atau mungkin tidak selaras dengan ucapan.

Anda juga dapat memilih untuk menampilkan kata-kata yang tidak stabil dalam format yang berbeda, seperti miring, untuk menunjukkan kepada pemirsa bahwa kata-kata ini dapat berubah. Menampilkan sebagian hasil membatasi jumlah teks yang ditampilkan pada waktu tertentu. Ini bisa menjadi penting ketika Anda berurusan dengan kendala ruang, seperti dengan teks video.

Menyelam lebih dalam dengan Blog AWS Machine Learning

Output contoh stabilisasi hasil sebagian

Contoh output berikut menunjukkan Stable flag untuk segmen yang tidak lengkap ()"IsPartial": true. Anda dapat melihat bahwa kata-kata "to" dan "Amazon" tidak stabil dan karenanya dapat berubah sebelum segmen diselesaikan.

"Transcript": { "Results": [ { "Alternatives": [ { "Items": [ { "Content": "Welcome", "EndTime": 2.4225, "Stable": true, "StartTime": 1.65, "Type": "pronunciation", "VocabularyFilterMatch": false }, { "Content": "to", "EndTime": 2.8325, "Stable": false, "StartTime": 2.4225, "Type": "pronunciation", "VocabularyFilterMatch": false }, { "Content": "Amazon", "EndTime": 3.635, "Stable": false, "StartTime": 2.8325, "Type": "pronunciation", "VocabularyFilterMatch": false }, { "Content": ".", "EndTime": 3.635, "Stable": false, "StartTime": 3.635, "Type": "punctuation", "VocabularyFilterMatch": false } ], "Transcript": "Welcome to Amazon." } ], "EndTime": 4.165, "IsPartial": true, "ResultId": "12345a67-8bc9-0de1-2f34-a5b678c90d12", "StartTime": 1.65 } ] }