自訂詞彙 - Amazon Transcribe

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

自訂詞彙

使用自訂詞彙以提高一或多個特定單字的轉錄準確性。這些通常是特定領域的術語,例如品牌名稱和縮寫、適當名詞以及 Amazon Transcribe 無法正確呈現的單字。

自訂詞彙可以與所有支援的語言搭配使用。請注意,只有您語言的字元集中列出的字元才可在自訂詞彙使用。

重要

您使用 Amazon Transcribe時,您必須對自己資料的完整性負責。請勿在自訂詞彙中輸入機密資訊、個人資訊 (PII) 或受保護的健康資訊 (PHI)。

建立自訂詞彙時的注意事項:

  • 每個最多可以有 100 個自訂字彙檔 AWS 帳戶

  • 每個自訂詞彙的大小限制為 50 Kb。

  • 如果使用 API 建立自訂詞彙,您的詞彙檔案必須是文字 (*.txt) 格式。如果使用 AWS Management Console,您的字彙檔案可以是文字 (*.txt) 格式或逗號分隔值 (*.csv) 格式。

  • 自訂詞彙的每個項目不能超過 256 個字元

  • 若要使用自訂字彙,該詞彙的建立方式必須與您的轉錄 AWS 區域 相同。

提示

您可以使用測試您的自訂詞彙 AWS Management Console。一旦您的自定義詞彙準備好使用,請登錄到 AWS Management Console,選擇實時轉錄,滾動到自定義,打開自定義詞彙,然後從下拉列表中選擇您的自定義詞彙。然後選擇開始串流。在麥克風中朗讀自訂詞彙中的一些單字,看看是否正確顯示。

自訂詞彙表與清單

重要

清單格式的自訂詞彙已不再使用。如果您要建立新的自訂詞彙,請使用表格格式

表格提供更多選項,以及更適當控制自訂詞彙中單字的輸入和輸出。使用表格時,您必須指定多個類別 (Phrase and DisplayAs),以便微調輸出。

清單沒有其他選項,因此您只能輸入您希望在文字記錄中出現的項目,取代所有空格為連字號。

AWS Management Console AWS CLI、和 AWS SDK 都以相同的方式使用自訂詞彙表;每種方法的使用方式都不同,因此可能需要額外的格式才能在方法之間成功使用。

如需詳細資訊,請參閱 使用資料表建立自訂詞彙使用清單建立自訂字彙

若要深入了解如何搭配自訂詞彙使用 Amazon Augmented AI,請參閱: