テーブルを使用してカスタム語彙を作成する - Amazon Transcribe

翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。

テーブルを使用してカスタム語彙を作成する

カスタム語彙を作成するには、テーブル形式を使用することをおすすめします。語彙テーブルは 4 つの (Phrase, SoundsLike, IPA, and DisplayAs) 列で構成されている必要があり、どの順序でも含めることができます。

フレーズ SoundsLike IPA DisplayAs

必須。テーブルのすべての行には、この列のエントリが含まれている必要があります。

この列にはスペースを使用しないでください。

エントリに複数の単語が含まれている場合は、各単語をハイフン (-) で区切ります。例えば、Andorra-la-VellaLos-Angeles などです。

頭字語の場合は、発音する文字をすべてピリオドで区切る必要があります。末尾のピリオドも発音する必要があります。頭字語が複数形の場合は、頭字語と「s」の間にハイフンを使用する必要があります。たとえば、「CLI」は C.L.I. (C.L.I ではない) で、「ABCs」は A.B.C.-s (A.B.C-s ではない) です。

フレーズが単語と頭字語の両方で構成されている場合は、これら 2 つの要素をハイフンで区切る必要があります。たとえば、「DynamoDB」は Dynamo-D.B. です。

この列には数字を含めないでください。数字はスペルアウトする必要があります。たとえば、「VX02Q」は V.X.-zero-two-Q. です。

オプションです。Amazon Transcribe では、この情報がなくても対応する語句を正確に書き起こすことができるため、この列の行は空のままにしてください。この列に対するサポートは、将来削除されます。

値を指定する場合は、この列でスペースを使用しないでください。同じ行に SoundsLikeIPA の両方を入力することはできません。

オプションです。Amazon Transcribe では、この情報がなくても対応する語句を正確に書き起こすことができるため、この列の行は空のままにしてください。この列に対するサポートは、将来削除されます。

値を指定する場合は、すべての IPA 文字 (シングルバイト) または有効な IPA 文字ペア (ダブルバイト) の間に 1 つのスペースを追加する必要があります。同じ行に IPASoundsLike の両方を入力することはできません。

オプションです。この列の行は空のままでかまいません。

この列にはスペースを使用できます。

文字起こし出力でのエントリの表示方法を定義します。たとえば、Phrase 列の Andorra-la-VellaDisplayAs 列の Andorra la Vella にあります。

この列の行が空の場合、Amazon Transcribe は Phrase 列の内容を使用して出力を決定します。

この列には数字 (0-9) を含めることができます。

テーブルを作成する際の注意事項

  • テーブルには 4 つの (Phrase, SoundsLike, IPA, and DisplayAs) 列すべてが含まれている必要がありますが、各行にエントリが含まれていなければならないのは Phrase 列だけです。その他の列は空白のままでもかまいません。

  • 各列は TAB またはカンマ (,) で区切る必要があります。これはカスタム語彙ファイルのすべての行に適用されます。行に空の列がある場合でも、各列に区切り記号 (TAB またはカンマ) を含める必要があります。

  • スペースは IPA 列と DisplayAs 列のみ使用できます。列を区切るのにスペースを使用しないでください。

  • IPA エントリおよび SoundsLike エントリは不要になりましたが、まだ列ヘッダーは必要です。Amazon Transcribe では、この情報がなくても対応する語句を正確に書き起こすことができるため、これらの列に対するサポートは将来削除されます。エントリを含める場合は、特定の行で IPA フィールドと SoundsLike フィールドの両方にエントリを含めることはできません。どちらかを選択してください。

  • DisplayAs 列は記号と特殊文字 (C++ など) をサポートします。他のすべての列は、使用している言語の文字セットページに記載されている文字をサポートします。

  • Phrase 列に数字を含めたい場合は、数字をスペルアウトする必要があります。数字 (0-9) は DisplayAs 列でのみサポートされています。

  • テーブルは LF 形式のプレーンテキスト (*.txt) ファイルとして保存する必要があります。CRLF など、他の形式を使用した場合、カスタム語彙は処理できません。

  • 文字起こしのリクエストに含める前に、カスタム語彙ファイルをAmazon S3 バケットにアップロードし、CreateVocabulary バケットを使用して処理する必要があります。手順については、「カスタム語彙テーブルを作成する」を参照してください。

注記

頭字語など、1 文字ずつ個別に発音する単語は、ピリオド (A.B.C.) で区切って 1 文字で入力します。「ABC」のように複数形の頭字語を入力するには、「s」と頭字語をハイフン (A.B.C.-s) で区切ります。頭字語の入力には、大文字と小文字のどちらでも使用できます。頭字語はすべての言語には対応していません。「サポートされている言語および言語固有の機能」を参照してください。

カスタム語彙テーブル ([TAB] はタブ文字を表す) の例を以下に示します。

Phrase[TAB]SoundsLike[TAB]IPA[TAB]DisplayAs Los-Angeles[TAB][TAB][TAB]Los Angeles Eva-Maria[TAB][TAB][TAB] A.B.C.-s[TAB][TAB][TAB]ABCs Amazon-dot-com[TAB][TAB][TAB]Amazon.com C.L.I.[TAB][TAB][TAB]CLI Andorra-la-Vella[TAB][TAB][TAB]Andorra la Vella Dynamo-D.B.[TAB][TAB][TAB]DynamoDB V.X.-zero-two[TAB][TAB][TAB]VX02 V.X.-zero-two-Q.[TAB][TAB][TAB]VX02Q

見やすくするために、同じ表に列をそろえて示します。カスタム語彙テーブルの列間にスペースを入れないでください。前の例のようにテーブルの位置がずれて見えるはずです。

Phrase [TAB]SoundsLike [TAB]IPA [TAB]DisplayAs Los-Angeles [TAB] [TAB] [TAB]Los Angeles Eva-Maria [TAB] [TAB] [TAB] A.B.C.-s [TAB] [TAB] [TAB]ABCs amazon-dot-com [TAB] [TAB] [TAB]amazon.com C.L.I. [TAB] [TAB] [TAB]CLI Andorra-la-Vella[TAB] [TAB] [TAB]Andorra la Vella Dynamo-D.B. [TAB] [TAB] [TAB]DynamoDB V.X.-zero-two [TAB] [TAB] [TAB]VX02 V.X.-zero-two-Q.[TAB] [TAB] [TAB]VX02Q

カスタム語彙テーブルを作成する

Amazon Transcribe で使用するカスタム語彙テーブルを処理するには、以下の例を参照してください。

  1. AWS Management Consoleにサインインします。

  2. ナビゲーションペインで、[カスタム語彙] を選択します。カスタム語彙のページが開き、既存の語彙の表示したり、新しい語彙を作成したりできます。

  3. [語彙の作成] を選択します。

    
                    Amazon Transcribe コンソールのスクリーンショット:「カスタム語彙」ページ。

    語彙の作成」ページに移動します。新しいカスタム語彙の名前を入力します。

    次の 3 つの選択肢があります。

    1. コンピュータから txt または csv ファイルをアップロードします。

      カスタム語彙を一から作成することも、テンプレートをダウンロードして始めることもできます。その後、語彙の表示と編集ペインに語彙が自動入力されます。

      
                            Amazon Transcribe コンソールのスクリーンショット:「語彙の作成とインポート」ページ。
    2. txt または csv ファイルを Amazon S3 の場所からインポートします。

      カスタム語彙を一から作成することも、テンプレートをダウンロードして始めることもできます。完成した語彙ファイルを Amazon S3 バケットにアップロードし、リクエストにその URI を指定します。その後、語彙の表示と編集ペインに語彙が自動入力されます。

      
                            Amazon Transcribe コンソールのスクリーンショット:「語彙の作成とインポート」ページ。
    3. コンソールで語彙を手動で作成します。

      語彙の表示と編集ペインまでスクロールし、[10 行追加] を選択します。用語を手動で入力できるようになりました。

      
                            Amazon Transcribe コンソールのスクリーンショット:「語彙の作成とインポート」ページ。
  4. 語彙の表示と編集ペインで語彙を編集できます。変更するには、変更するエントリをクリックします。

    
                    Amazon Transcribe コンソールのスクリーンショット:「語彙の作成と編集」ペイン。

    エラーがあると詳細なエラーメッセージが表示されるので、語彙を処理する前に問題を修正できます。[語彙の作成] を選択する前にすべてのエラーを修正しないと、語彙のリクエストは失敗するので注意してください。

    
                    Amazon Transcribe コンソールのスクリーンショット:「語彙の作成と編集」ペイン。

    チェックマーク (✓) を選択して変更を保存するか、「X」を選択して変更を破棄します。

  5. オプションで、カスタム語彙にタグを追加します。すべてのフィールドを入力し、語彙に問題がなければ、ページの一番下にある [語彙の作成] を選択します。カスタム語彙のページに戻ると、カスタム語彙のステータスを確認できます。ステータスが「保留中」から「準備完了」に変わったら、カスタム語彙を文字起こしに使用できます。

    
                    Amazon Transcribe コンソールのスクリーンショット: 処理中の保留状態のカスタム語彙。
  6. ステータスが「失敗」に変わったら、カスタム語彙の名前を選択して、その語彙の情報ページに移動します。

    
                    Amazon Transcribe コンソールのスクリーンショット: 完了した語彙と失敗した語彙が 1 つずつ表示されている「カスタム語彙」ページ。

    このページの上部には、カスタム語彙が失敗した理由に関する情報が記載された失敗の理由バナーがあります。テキストファイルのエラーを修正して、もう一度試してください。

    
                    Amazon Transcribe コンソールのスクリーンショット: 失敗の理由が表示されている語彙の情報ページ。

この例では、テーブル形式の語彙ファイルで語彙の作成コマンドを使用します。詳細については、「CreateVocabulary」を参照してください。

文字起こしジョブで既存のカスタム語彙を使用するには、StartTranscriptionJob オペレーションを呼び出すときに Settings フィールドに VocabularyName を設定するか、AWS Management Console から、またはドロップダウンリストから [カスタム語彙] を選択します。

aws transcribe create-vocabulary \ --vocabulary-name my-first-vocabulary \ --vocabulary-file-uri s3://DOC-EXAMPLE-BUCKET/my-vocabularies/my-vocabulary-file.txt \ --language-code en-US

ここでは、語彙の作成コマンドと、カスタム語彙を作成するリクエストボディを使用した別の例を示します。

aws transcribe create-vocabulary \ --cli-input-json file://filepath/my-first-vocab-table.json

ファイル my-first-vocab-table.json には、次のリクエストボディが入含まれています。

{ "VocabularyName": "my-first-vocabulary", "VocabularyFileUri": "s3://DOC-EXAMPLE-BUCKET/my-vocabularies/my-vocabulary-table.txt", "LanguageCode": "en-US" }

VocabularyStatePENDING から READY に変更すると、カスタム語彙を文字起こしに使用できるようになります。カスタム語彙の現在のステータスを表示するには、以下を実行します。

aws transcribe get-vocabulary \ --vocabulary-name my-first-vocabulary

この例では、語彙作成メソッドでテーブルからカスタム語彙を作成し、AWS SDK for Python (Boto3) を使用します。詳細については、「CreateVocabulary」を参照してください。

文字起こしジョブで既存のカスタム語彙を使用するには、StartTranscriptionJob オペレーションを呼び出すときに Settings フィールドに VocabularyName を設定するか、AWS Management Console から、またはドロップダウンリストから [カスタム語彙] を選択します。

特徴固有の例、シナリオ例、クロスサービスの例など、AWS SDK を使用するその他の例については、SDK AWS を使用した Amazon Transcribe コード例 章を参照してください。

from __future__ import print_function import time import boto3 transcribe = boto3.client('transcribe', 'us-west-2') vocab_name = "my-first-vocabulary" response = transcribe.create_vocabulary( LanguageCode = 'en-US', VocabularyName = vocab_name, VocabularyFileUri = 's3://DOC-EXAMPLE-BUCKET/my-vocabularies/my-vocabulary-table.txt' ) while True: status = transcribe.get_vocabulary(VocabularyName = vocab_name) if status['VocabularyState'] in ['READY', 'FAILED']: break print("Not ready yet...") time.sleep(5) print(status)
注記

カスタム語彙ファイル用に新しい Amazon S3 バケットを作成する場合は、CreateVocabulary リクエストを行う IAM ロールにこのバケットにアクセスする権限があることを確認してください。ロールに正しいアクセス許可がない場合、リクエストは失敗します。DataAccessRoleArn パラメーターを含めることで、リクエスト内で IAM ロールを指定できます。IAM ロールと Amazon Transcribe のポリシー詳細については、「Amazon Transcribe アイデンティティベースポリシーの例」を参照してください。