使用清單建立自訂字彙 - Amazon Transcribe

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

使用清單建立自訂字彙

您可以使用AWS Management Console、AWS CLI或 SDK 從清單建立自訂字彙。AWS

  • AWS Management Console:您必須創建並上傳包含自定義詞彙的文本文件。您可以使用以行分隔或逗號分隔的項目。請注意,您的清單必須以LF格式儲存為文字 (*.txt) 檔案。如果您使用任何其他格式,例如CRLF,您的自訂字彙將不被接受Amazon Transcribe。

  • AWS CLIAWSSDK:您必須使用旗標在 API 呼叫中以逗號分隔的條目包含自訂詞彙。Phrases

如果一個項目包含多個單字,您必須以連字符連接每個單字。例如,您將「洛杉磯」包括為Los-Angeles和「安道爾城」作為。Andorra-la-Vella

以下是兩種有效清單格式的範例。如需有關特定建立自訂詞彙表的自於方法的範例,請參閱。

  • 以逗號分隔的項目:

    Los-Angeles,CLI,Eva-Maria,ABCs,Andorra-la-Vella
  • 以行分隔的項目:

    Los-Angeles CLI Eva-Maria ABCs Andorra-la-Vella
重要

您只能使用您的語言支援的字元。如需詳細資訊,請參閱您語言的字元集

此作業不支援自訂字彙清CreateMedicalVocabulary單。如果要使用資料表建立自訂詞彙建立自訂醫療字彙,您必須使用表格格式;如需說明,請參閱。

建立自訂詞彙表的自

若要處理自訂字彙清單以搭配使用Amazon Transcribe,請參閱下列範例:

此範例使用「建立詞彙」指令搭配清單格式的自訂字彙檔案。如需詳細資訊,請參閱CreateVocabulary

aws transcribe create-vocabulary \ --vocabulary-name my-first-vocabulary \ --language-code en-US \ --phrases {CLI,Eva-Maria,ABCs}

這是另一個使用「創建詞彙」命令的示例,以及創建自定義詞彙的請求主體。

aws transcribe create-vocabulary \ --cli-input-json file://filepath/my-first-vocab-list.json

該文件 my-first-vocab-list.json 包含以下請求主體。

{ "VocabularyName": "my-first-vocabulary", "LanguageCode": "en-US", "Phrases": [ "CLI","Eva-Maria","ABCs" ] }

VocabularyState更改PENDING為後READY,您的自定義詞彙即可與轉錄一起使用。使用命命令可檢視自訂字彙的目前狀態:

aws transcribe get-vocabulary \ --vocabulary-name my-first-vocabulary

此範例使用,AWS SDK for Python (Boto3)使用 create_ word 方法從清單建立自訂字彙。如需詳細資訊,請參閱CreateVocabulary

如需使用 AWS SDK 的其他範例,包括特定功能、案例和跨服務範例,請參閱本章。使用 SDK 進行 Amazon Transcribe 的代碼示例 AWS

from __future__ import print_function import time import boto3 transcribe = boto3.client('transcribe', 'us-west-2') vocab_name = "my-first-vocabulary" response = transcribe.create_vocabulary( LanguageCode = 'en-US', VocabularyName = vocab_name, Phrases = [ 'CLI','Eva-Maria','ABCs' ] ) while True: status = transcribe.get_vocabulary(VocabularyName = vocab_name) if status['VocabularyState'] in ['READY', 'FAILED']: break print("Not ready yet...") time.sleep(5) print(status)
注意

如果您為自訂字彙檔案建立新Amazon S3值區,請確定提出CreateVocabulary請求的IAM角色具有存取此值區的權限。如果角色沒有正確的權限,您的請求將失敗。您可以選擇性地在請求中加入DataAccessRoleArn參數來指定IAM角色。如需中IAM角色和原則的詳細資訊Amazon Transcribe,請參閱Amazon Transcribe 身分型政策範例