リストを使用してカスタム語彙を作成する

重要

リスト形式のカスタム語彙は廃止が予定されているため、新しいカスタム語彙を作成する場合は、テーブル形式を使用することを強くおすすめします。

AWS Management Console、、または AWS SDKs を使用して AWS CLI、リストからカスタム語彙を作成できます。

AWS Management Console: カスタム語彙を含むテキストファイルを作成してアップロードする必要があります。行区切りまたはカンマ区切りのエントリを使用できます。リストは LF 形式のテキスト (*.txt) ファイルとして保存する必要があります。CRLF などの他の形式を使用した場合、カスタム語彙は Amazon Transcribeでは受け入れられません。
AWS CLI および AWS SDK: Phrases フラグを使用して、API コールにカスタム語彙をカンマで区切ったエントリとして含める必要があります。

エントリに複数の単語が含まれている場合は、各単語をハイフンでつなぐ必要があります。たとえば、「ロサンゼルス」を Los-Angeles、「アンドララベリャ」を Andorra-la-Vella とします。

以下は 2 つの有効なリスト形式の例です。メソッド固有の例については、「カスタム語彙リストの作成」を参照してください。

カンマで区切られたエントリ:


Los-Angeles,CLI,Eva-Maria,ABCs,Andorra-la-Vella

行で区切られたエントリ:


Los-Angeles
CLI
Eva-Maria
ABCs
Andorra-la-Vella

重要

使用する言語でサポートされている文字のみを使用できます。詳細については、ご使用の言語の「文字セット」を参照してください。

カスタム語彙リストは、CreateMedicalVocabulary オペレーションではサポートされていません。医療用のカスタム語彙を作成する場合は、テーブル形式を使用する必要があります。手順については、「テーブルを使用してカスタム語彙を作成する」を参照してください。

カスタム語彙リストの作成

で使用するカスタム語彙リストを処理するには Amazon Transcribe、次の例を参照してください。

この例では、リスト形式のカスタム語彙ファイルで語彙の作成コマンドを使用します。詳細については、「CreateVocabulary」を参照してください。


aws transcribe create-vocabulary \ 
--vocabulary-name my-first-vocabulary \ 
--language-code en-US \ 
--phrases {CLI,Eva-Maria,ABCs}

ここでは、語彙の作成コマンドと、カスタム語彙を作成するリクエストボディを使用した別の例を示します。


aws transcribe create-vocabulary \
--cli-input-json file://filepath/my-first-vocab-list.json

ファイル my-first-vocab-list.json には、次のリクエストボディが含まれています。


{
  "VocabularyName": "my-first-vocabulary",
  "LanguageCode": "en-US",
  "Phrases": [
        "CLI","Eva-Maria","ABCs"
  ]
}

VocabularyState をPENDING から READY に変更すると、カスタム語彙を文字起こしに使用できるようになります。カスタム語彙の現在のステータスを表示するには、以下を実行します。


aws transcribe get-vocabulary \
--vocabulary-name my-first-vocabulary

この例では AWS SDK for Python (Boto3) 、を使用して、create_vocabulary メソッドを使用してリストからカスタム語彙を作成します。詳細については、「CreateVocabulary」を参照してください。

機能固有の例、シナリオ例、クロスサービス例など、 AWS SDKsSDK を使用した Amazon Transcribe のコード例 AWS SDKs「」章を参照してください。


from __future__ import print_function
import time
import boto3
transcribe = boto3.client('transcribe', 'us-west-2')
vocab_name = "my-first-vocabulary"
response = transcribe.create_vocabulary(
    LanguageCode = 'en-US',
    VocabularyName = vocab_name,
    Phrases = [
        'CLI','Eva-Maria','ABCs'
    ]
)

while True:
    status = transcribe.get_vocabulary(VocabularyName = vocab_name)
    if status['VocabularyState'] in ['READY', 'FAILED']:
        break
    print("Not ready yet...")
    time.sleep(5)
print(status)

注記

カスタム語彙ファイル用に新しい Amazon S3 バケットを作成する場合は、CreateVocabularyリクエストを行う IAM ロールにこのバケットへのアクセス許可があることを確認してください。ロールに正しいアクセス許可がない場合、リクエストは失敗します。オプションで、 DataAccessRoleArnパラメータを含めることで、リクエスト内で IAM ロールを指定できます。の IAM ロールとポリシーの詳細については Amazon Transcribe、「」を参照してくださいAmazon Transcribe アイデンティティベースのポリシーの例。

ブラウザで JavaScript が無効になっているか、使用できません。

AWS ドキュメントを使用するには、JavaScript を有効にする必要があります。手順については、使用するブラウザのヘルプページを参照してください。

ドキュメントの表記規則

テーブルを使用してカスタム語彙を作成する

カスタム語彙の使用