翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。
テーブルを使用してカスタム語彙を作成する
カスタム語彙を作成するには、テーブル形式を使用することをおすすめします。語彙テーブルは 4 つの (Phrase, SoundsLike, IPA, and DisplayAs) 列で構成されている必要があり、どの順序でも含めることができます。
フレーズ | SoundsLike | IPA | DisplayAs |
---|---|---|---|
必須。テーブルのすべての行には、この列のエントリが含まれている必要があります。 この列にはスペースを使用しないでください。 エントリに複数の単語が含まれている場合は、各単語をハイフン (-) で区切ります。例えば、 頭字語の場合は、発音する文字をすべてピリオドで区切る必要があります。末尾のピリオドも発音する必要があります。頭字語が複数形の場合は、頭字語と「s」の間にハイフンを使用する必要があります。たとえば、「CLI」は フレーズが単語と頭字語の両方で構成されている場合は、これら 2 つの要素をハイフンで区切る必要があります。たとえば、「DynamoDB」は この列には数字を含めないでください。数字はスペルアウトする必要があります。たとえば、「VX02Q」は |
オプションです。Amazon Transcribe では、この情報がなくても対応する語句を正確に書き起こすことができるため、この列の行は空のままにしてください。この列に対するサポートは、将来削除されます。 値を指定する場合は、この列でスペースを使用しないでください。同じ行に |
オプションです。Amazon Transcribe では、この情報がなくても対応する語句を正確に書き起こすことができるため、この列の行は空のままにしてください。この列に対するサポートは、将来削除されます。 値を指定する場合は、すべての IPA 文字 (シングルバイト) または有効な IPA 文字ペア (ダブルバイト) の間に 1 つのスペースを追加する必要があります。同じ行に |
オプションです。この列の行は空のままでかまいません。 この列にはスペースを使用できます。 文字起こし出力でのエントリの表示方法を定義します。たとえば、 この列の行が空の場合、Amazon Transcribe は この列には数字 ( |
テーブルを作成する際の注意事項
-
テーブルには 4 つの (Phrase, SoundsLike, IPA, and DisplayAs) 列すべてが含まれている必要がありますが、各行にエントリが含まれていなければならないのは
Phrase
列だけです。その他の列は空白のままでもかまいません。 -
各列は TAB またはカンマ (,) で区切る必要があります。これはカスタム語彙ファイルのすべての行に適用されます。行に空の列がある場合でも、各列に区切り記号 (TAB またはカンマ) を含める必要があります。
-
スペースは
IPA
列とDisplayAs
列のみ使用できます。列を区切るのにスペースを使用しないでください。 -
IPA
エントリおよびSoundsLike
エントリは不要になりましたが、まだ列ヘッダーは必要です。Amazon Transcribe では、この情報がなくても対応する語句を正確に書き起こすことができるため、これらの列に対するサポートは将来削除されます。エントリを含める場合は、特定の行でIPA
フィールドとSoundsLike
フィールドの両方にエントリを含めることはできません。どちらかを選択してください。 -
DisplayAs
列は記号と特殊文字 (C++ など) をサポートします。他のすべての列は、使用している言語の文字セットページに記載されている文字をサポートします。 -
Phrase
列に数字を含めたい場合は、数字をスペルアウトする必要があります。数字 (0-9
) はDisplayAs
列でのみサポートされています。 -
テーブルは
LF
形式のプレーンテキスト (*.txt) ファイルとして保存する必要があります。CRLF
など、他の形式を使用した場合、カスタム語彙は処理できません。 -
文字起こしのリクエストに含める前に、カスタム語彙ファイルをAmazon S3 バケットにアップロードし、
CreateVocabulary
バケットを使用して処理する必要があります。手順については、「カスタム語彙テーブルを作成する」を参照してください。
注記
頭字語など、1 文字ずつ個別に発音する単語は、ピリオド (A.B.C.
) で区切って 1 文字で入力します。「ABC」のように複数形の頭字語を入力するには、「s」と頭字語をハイフン (A.B.C.-s
) で区切ります。頭字語の入力には、大文字と小文字のどちらでも使用できます。頭字語はすべての言語には対応していません。「サポートされている言語および言語固有の機能」を参照してください。
カスタム語彙テーブル ([TAB]
はタブ文字を表す) の例を以下に示します。
Phrase[TAB]
SoundsLike[TAB]
IPA[TAB]
DisplayAs
Los-Angeles[TAB]
[TAB]
[TAB]
Los Angeles
Eva-Maria[TAB]
[TAB]
[TAB]
A.B.C.-s[TAB]
[TAB]
[TAB]
ABCs
Amazon-dot-com[TAB]
[TAB]
[TAB]
Amazon.com
C.L.I.[TAB]
[TAB]
[TAB]
CLI
Andorra-la-Vella[TAB]
[TAB]
[TAB]
Andorra la Vella
Dynamo-D.B.[TAB]
[TAB]
[TAB]
DynamoDB
V.X.-zero-two[TAB]
[TAB]
[TAB]
VX02
V.X.-zero-two-Q.[TAB]
[TAB]
[TAB]
VX02Q
見やすくするために、同じ表に列をそろえて示します。カスタム語彙テーブルの列間にスペースを入れないでください。前の例のようにテーブルの位置がずれて見えるはずです。
Phrase [TAB]
SoundsLike [TAB]
IPA [TAB]
DisplayAs
Los-Angeles [TAB]
[TAB]
[TAB]
Los Angeles
Eva-Maria [TAB]
[TAB]
[TAB]
A.B.C.-s [TAB]
[TAB]
[TAB]
ABCs
amazon-dot-com [TAB]
[TAB]
[TAB]
amazon.com
C.L.I. [TAB]
[TAB]
[TAB]
CLI
Andorra-la-Vella[TAB]
[TAB]
[TAB]
Andorra la Vella
Dynamo-D.B. [TAB]
[TAB]
[TAB]
DynamoDB
V.X.-zero-two [TAB]
[TAB]
[TAB]
VX02
V.X.-zero-two-Q.[TAB]
[TAB]
[TAB]
VX02Q
カスタム語彙テーブルを作成する
Amazon Transcribe で使用するカスタム語彙テーブルを処理するには、以下の例を参照してください。
-
AWS Management Console
にサインインします。 -
ナビゲーションペインで、[カスタム語彙] を選択します。カスタム語彙のページが開き、既存の語彙の表示したり、新しい語彙を作成したりできます。
-
[語彙の作成] を選択します。
「語彙の作成」ページに移動します。新しいカスタム語彙の名前を入力します。
次の 3 つの選択肢があります。
-
コンピュータから txt または csv ファイルをアップロードします。
カスタム語彙を一から作成することも、テンプレートをダウンロードして始めることもできます。その後、語彙の表示と編集ペインに語彙が自動入力されます。
-
txt または csv ファイルを Amazon S3 の場所からインポートします。
カスタム語彙を一から作成することも、テンプレートをダウンロードして始めることもできます。完成した語彙ファイルを Amazon S3 バケットにアップロードし、リクエストにその URI を指定します。その後、語彙の表示と編集ペインに語彙が自動入力されます。
-
コンソールで語彙を手動で作成します。
語彙の表示と編集ペインまでスクロールし、[10 行追加] を選択します。用語を手動で入力できるようになりました。
-
-
語彙の表示と編集ペインで語彙を編集できます。変更するには、変更するエントリをクリックします。
エラーがあると詳細なエラーメッセージが表示されるので、語彙を処理する前に問題を修正できます。[語彙の作成] を選択する前にすべてのエラーを修正しないと、語彙のリクエストは失敗するので注意してください。
チェックマーク (✓) を選択して変更を保存するか、「X」を選択して変更を破棄します。
-
オプションで、カスタム語彙にタグを追加します。すべてのフィールドを入力し、語彙に問題がなければ、ページの一番下にある [語彙の作成] を選択します。カスタム語彙のページに戻ると、カスタム語彙のステータスを確認できます。ステータスが「保留中」から「準備完了」に変わったら、カスタム語彙を文字起こしに使用できます。
-
ステータスが「失敗」に変わったら、カスタム語彙の名前を選択して、その語彙の情報ページに移動します。
このページの上部には、カスタム語彙が失敗した理由に関する情報が記載された失敗の理由バナーがあります。テキストファイルのエラーを修正して、もう一度試してください。
この例では、テーブル形式の語彙ファイルで語彙の作成コマンドを使用します。詳細については、「CreateVocabulary
」を参照してください。
文字起こしジョブで既存のカスタム語彙を使用するには、StartTranscriptionJob
オペレーションを呼び出すときに Settings
フィールドに VocabularyName
を設定するか、AWS Management Console から、またはドロップダウンリストから [カスタム語彙] を選択します。
aws transcribe create-vocabulary \ --vocabulary-name
my-first-vocabulary
\ --vocabulary-file-uri s3://DOC-EXAMPLE-BUCKET
/my-vocabularies
/my-vocabulary-file
.txt \ --language-codeen-US
ここでは、語彙の作成コマンドと、カスタム語彙を作成するリクエストボディを使用した別の例を示します。
aws transcribe create-vocabulary \ --cli-input-json file://
filepath
/my-first-vocab-table
.json
ファイル my-first-vocab-table.json には、次のリクエストボディが入含まれています。
{ "VocabularyName": "
my-first-vocabulary
", "VocabularyFileUri": "s3://DOC-EXAMPLE-BUCKET
/my-vocabularies
/my-vocabulary-table
.txt", "LanguageCode": "en-US
" }
VocabularyState
をPENDING
から READY
に変更すると、カスタム語彙を文字起こしに使用できるようになります。カスタム語彙の現在のステータスを表示するには、以下を実行します。
aws transcribe get-vocabulary \ --vocabulary-name
my-first-vocabulary
この例では、語彙作成CreateVocabulary
」を参照してください。
文字起こしジョブで既存のカスタム語彙を使用するには、StartTranscriptionJob
オペレーションを呼び出すときに Settings
フィールドに VocabularyName
を設定するか、AWS Management Console から、またはドロップダウンリストから [カスタム語彙] を選択します。
特徴固有の例、シナリオ例、クロスサービスの例など、AWS SDK を使用するその他の例については、SDK AWS を使用した Amazon Transcribe コード例 章を参照してください。
from __future__ import print_function import time import boto3 transcribe = boto3.client('transcribe', '
us-west-2
') vocab_name = "my-first-vocabulary
" response = transcribe.create_vocabulary( LanguageCode = 'en-US
', VocabularyName = vocab_name, VocabularyFileUri = 's3://DOC-EXAMPLE-BUCKET
/my-vocabularies
/my-vocabulary-table
.txt' ) while True: status = transcribe.get_vocabulary(VocabularyName = vocab_name) if status['VocabularyState'] in ['READY', 'FAILED']: break print("Not ready yet...") time.sleep(5) print(status)
注記
カスタム語彙ファイル用に新しい Amazon S3 バケットを作成する場合は、CreateVocabulary
リクエストを行う IAM ロールにこのバケットにアクセスする権限があることを確認してください。ロールに正しいアクセス許可がない場合、リクエストは失敗します。DataAccessRoleArn
パラメーターを含めることで、リクエスト内で IAM ロールを指定できます。IAM ロールと Amazon Transcribe のポリシー詳細については、「Amazon Transcribe アイデンティティベースポリシーの例」を参照してください。