StartTranscriptionJob - 轉錄

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

StartTranscriptionJob

從媒體檔案轉錄音訊,並套用您選擇包含在要求中的任何其他「要求參數」。

StartTranscriptionJob要提出請求,您必須先將媒體檔案上傳到 Amazon S3 儲存貯體;然後您可以使用Media參數指定檔案的 Amazon S3 位置。

您必須在StartTranscriptionJob要求中包含下列參數:

  • region:您提出請求的位AWS 區域置。如需 Amazon 轉錄AWS 區域支援的清單,請參閱 Amazon Transcribe 端點和配額

  • TranscriptionJobName:您為轉錄工作創建的自定義名稱,在您的AWS 帳戶.

  • MediaMediaFileUri):媒體文件的 Amazon S3 位置。

  • 其中一個LanguageCodeIdentifyLanguage、或IdentifyMultipleLanguages:如果您知道媒體檔案的語言,請使用LanguageCode參數指定;您可以在「支援的語言」表格中找到所有有效的語言代碼。如果您不知道媒體中使用的語言,請使用IdentifyLanguage或,IdentifyMultipleLanguages然後讓 Amazon Transcribe 為您識別語言。

請求語法

{ "ContentRedaction": { "PiiEntityTypes": [ "string" ], "RedactionOutput": "string", "RedactionType": "string" }, "IdentifyLanguage": boolean, "IdentifyMultipleLanguages": boolean, "JobExecutionSettings": { "AllowDeferredExecution": boolean, "DataAccessRoleArn": "string" }, "KMSEncryptionContext": { "string" : "string" }, "LanguageCode": "string", "LanguageIdSettings": { "string" : { "LanguageModelName": "string", "VocabularyFilterName": "string", "VocabularyName": "string" } }, "LanguageOptions": [ "string" ], "Media": { "MediaFileUri": "string", "RedactedMediaFileUri": "string" }, "MediaFormat": "string", "MediaSampleRateHertz": number, "ModelSettings": { "LanguageModelName": "string" }, "OutputBucketName": "string", "OutputEncryptionKMSKeyId": "string", "OutputKey": "string", "Settings": { "ChannelIdentification": boolean, "MaxAlternatives": number, "MaxSpeakerLabels": number, "ShowAlternatives": boolean, "ShowSpeakerLabels": boolean, "VocabularyFilterMethod": "string", "VocabularyFilterName": "string", "VocabularyName": "string" }, "Subtitles": { "Formats": [ "string" ], "OutputStartIndex": number }, "Tags": [ { "Key": "string", "Value": "string" } ], "TranscriptionJobName": "string" }

請求參數

如需有關所有動作共用之參數的資訊,請參閱一般參數

請求接受採用 JSON 格式的下列資料。

ContentRedaction

可以在您的成績單中編寫指定的個人身分識別資訊 (PII) 或標記您的成績單。如果使用ContentRedaction,則還必須包括子參數:PiiEntityTypesRedactionOutput、和RedactionType

類型:ContentRedaction 物件

必要:否

IdentifyLanguage

在轉錄工作要求中啟用自動語言識別功能。如果您的媒體檔案只包含一種語言,請使用此參數。如果您的媒體包含多種語言,請IdentifyMultipleLanguages改用。

如果您包含IdentifyLanguage,您可以選擇包括語言代碼列表,使用LanguageOptions,您認為可能存在於媒體文件中。包括僅LanguageOptionsIdentifyLanguage於您指定的語言選項,這可以提高轉錄的準確性。

如果您想要將自訂語言模型、自訂字彙或自訂字彙篩選套用至您的自動語言識別要求,請加入LanguageIdSettings相關的子參數 (VocabularyNameLanguageModelName、和VocabularyFilterName)。如果包括LanguageIdSettings,還包括LanguageOptions.

請注意,您必須在請求IdentifyMultipleLanguages中包含LanguageCodeIdentifyLanguage、或之一。如果您包含這些參數,則轉錄工作會失敗。

類型:布林值

必要:否

IdentifyMultipleLanguages

在轉錄工作要求中啟用自動多語言識別功能。如果您的媒體檔案包含一種以上的語言,請使用此參數。如果您的媒體只包含一種語言,請IdentifyLanguage改用。

如果您包含IdentifyMultipleLanguages,您可以選擇包括語言代碼列表,使用LanguageOptions,您認為可能存在於媒體文件中。包括僅LanguageOptionsIdentifyLanguage於您指定的語言選項,這可以提高轉錄的準確性。

如果您想要將自訂字彙或自訂字彙篩選套用至您的自動語言識別請求,請加入LanguageIdSettings相關的子參數 (VocabularyNameVocabularyFilterName)。如果包括LanguageIdSettings,還包括LanguageOptions.

請注意,您必須在請求IdentifyMultipleLanguages中包含LanguageCodeIdentifyLanguage、或之一。如果您包含這些參數,則轉錄工作會失敗。

類型:布林值

必要:否

JobExecutionSettings

可以控制轉錄工作的處理方式。目前,您唯一可以選擇的JobExecutionSettings修改是使用AllowDeferredExecution子參數啟用工作佇列。

如果您JobExecutionSettings在請求中包含,則還必須包括子參數:AllowDeferredExecutionDataAccessRoleArn

類型:JobExecutionSettings 物件

必要:否

KMSEncryptionContext

純文字、非秘密金鑰:值配對 (稱為加密內容配對) 的對映,可為您的資料提供額外的安全層。如需詳細資訊,請參閱中的AWS KMS加密內容和非對稱金鑰AWS KMS。

類型:字串到字串映射

映射項目:最多 10 個項目。

索引鍵長度限制:長度下限為 1。長度上限為 2000。

金鑰模式:.*\S.*

值長度限制:長度下限為 1。長度上限為 2000。

值模式:.*\S.*

必要:否

LanguageCode

代表輸入媒體檔案中所使用語言的語言代碼。

如果您不確定媒體檔案中所使用的語言,請考慮使用IdentifyLanguage或啟IdentifyMultipleLanguages用自動語言識別。

請注意,您必須在請求IdentifyMultipleLanguages中包含LanguageCodeIdentifyLanguage、或之一。如果您包含這些參數,則轉錄工作會失敗。

如需支援的語言及其相關語言代碼的清單,請參閱支援的語言表格。

注意

若要以現代標準阿拉伯文 (ar-SA) 轉錄語音,您的媒體檔案必須以 16,000 Hz 或更高的取樣率進行編碼。

類型:String

有效值: af-ZA | ar-AE | ar-SA | da-DK | de-CH | de-DE | en-AB | en-AU | en-GB | en-IE | en-IN | en-US | en-WL | es-ES | es-US | fa-IR | fr-CA | fr-FR | he-IL | hi-IN | id-ID | it-IT | ja-JP | ko-KR | ms-MY | nl-NL | pt-BR | pt-PT | ru-RU | ta-IN | te-IN | tr-TR | zh-CN | zh-TW | th-TH | en-ZA | en-NZ | vi-VN | sv-SE

必要:否

LanguageIdSettings

如果在您的請求中使用自動語言識別,而您想要套用自訂語言模型、自訂字彙或自訂字彙篩選器,請在LanguageIdSettings相關子參數 (VocabularyNameLanguageModelName、和VocabularyFilterName) 中加入。請注意,多語言識別 (IdentifyMultipleLanguages) 不支援自訂語言模型。

LanguageIdSettings支持二到五種語言代碼。您包含的每個語言代碼都可以有關聯的自訂語言模型、自訂字彙和自訂字彙篩選器。您指定的語言代碼必須與相關自訂語言模型、自訂字彙和自訂字彙篩選器的語言相符。

建議您在使用LanguageOptions時加入,LanguageIdSettings以確保識別正確的語言方言。例如,如果您指定的自訂字彙位於中,en-US但 Amazon Transcribe 確定媒體所使用的語言是en-AU,則您的自訂詞彙會套用至您的轉錄。如果您包含LanguageOptions並包含en-US為唯一的英語方言,則您的自定義彙將應用於您的轉錄。

如果您想要在要求中包含自訂語言模型,但想使用自動語言識別,請改用具有LanguageModelName ModelSettings 參數的參數。如果您想要在要求中包含自訂字彙或自訂字彙篩選器 (或兩者),但想使用自動語言識別,請改用 Settings 參數搭配VocabularyName orVocabularyFilterName (或兩者) 子參數。

類型:String 到LanguageIdSettings物件映射

映射項目:最多 5 個項目。

有效金鑰: af-ZA | ar-AE | ar-SA | da-DK | de-CH | de-DE | en-AB | en-AU | en-GB | en-IE | en-IN | en-US | en-WL | es-ES | es-US | fa-IR | fr-CA | fr-FR | he-IL | hi-IN | id-ID | it-IT | ja-JP | ko-KR | ms-MY | nl-NL | pt-BR | pt-PT | ru-RU | ta-IN | te-IN | tr-TR | zh-CN | zh-TW | th-TH | en-ZA | en-NZ | vi-VN | sv-SE

必要:否

LanguageOptions

您可以指定兩個以上的語言代碼,代表您認為可能存在於媒體中的語言。不建議包括五個以上。如果您不確定存在哪些語言,請不要包含此參數。

如果您LanguageOptions在您的要求中包含您的要求,則還必須包含IdentifyLanguage

如需詳細資訊,請參閱支援的語言

若要以現代標準阿拉伯文 (ar-SA) 轉錄語音,您的媒體檔案必須以 16,000 Hz 或更高的取樣率進行編碼。

類型:字串陣列

陣列成員:項目數下限為 1。

有效值: af-ZA | ar-AE | ar-SA | da-DK | de-CH | de-DE | en-AB | en-AU | en-GB | en-IE | en-IN | en-US | en-WL | es-ES | es-US | fa-IR | fr-CA | fr-FR | he-IL | hi-IN | id-ID | it-IT | ja-JP | ko-KR | ms-MY | nl-NL | pt-BR | pt-PT | ru-RU | ta-IN | te-IN | tr-TR | zh-CN | zh-TW | th-TH | en-ZA | en-NZ | vi-VN | sv-SE

必要:否

Media

描述您要在請求中使用之媒體檔案的 Amazon S3 位置。

類型:Media 物件

必要:是

MediaFormat

指定輸入媒體檔案的格式。

類型:String

有效值: mp3 | mp4 | wav | flac | ogg | amr | webm

必要:否

MediaSampleRateHertz

輸入媒體檔案中音軌的取樣率 (以赫茲為單位)。

如果您沒有指定媒體取樣率,Amazon Transcribe 為您決定。如果您指定取樣率,它必須與 Amazon 轉錄所偵測到的速率相符。如果您指定的值與偵測到的值不相符,則工作會失敗。在多數情況中,您可以省略MediaSampleRateHertz並讓 Amazon Transcribe Key (Amazon Trantion))))。

類型:整數

有效範圍:最小值為 8000。最大值為 48。

必要:否

ModelSettings

指定您要包含在轉錄工作中的自訂語言模型。如果您ModelSettings在請求中包含,則必須包含LanguageModelName子參數。

如需詳細資訊,請參閱自訂語言模型

類型:ModelSettings 物件

必要:否

OutputBucketName

您希望存放轉錄輸出的 Amazon S3 儲貯體名稱。請勿包含指定值區的S3://前置字元。

如果您希望輸出移至此值區的子資料夾,請使用OutputKey參數指定該資料夾;OutputBucketName只接受值區的名稱。

例如,如果您要將輸出儲存在中S3://DOC-EXAMPLE-BUCKET,請OutputBucketName將設定為DOC-EXAMPLE-BUCKET。但是,如果您希望將輸出存儲在中S3://DOC-EXAMPLE-BUCKET/test-files/,請OutputBucketName將設置OutputKeyDOC-EXAMPLE-BUCKETtest-files/

請注意,Amazon Trantion 轉錄檔必須得到許可才能使用指定的位置。您可以使用變更 Amazon S3 許可AWS Management Console。另請參閱 IAM 使用者角色所需的許可。

如果未指定OutputBucketName,您的成績單會放置在服務管理的 Amazon S3 儲存貯體中,並提供 URI 以存取您的成績單。

類型:String

長度上限為 64。

模式:[a-z0-9][\.\-a-z0-9]{1,61}[a-z0-9]

必要:否

OutputEncryptionKMSKeyId

您想用來加密轉寫輸出的 KMS key。

如果使用位於目前的金鑰AWS 帳戶,您可以使用下列四種方式之一來指定 KMS 金鑰:

  1. 使用 KMS 金鑰識別碼本身。例如:1234abcd-12ab-34cd-56ef-1234567890ab

  2. 使用 KMS key ID 的別名。例如:alias/ExampleAlias

  3. 使用 Amazon Resource Name Name (ARN) 作為 KMS key ID。例如:arn:aws:kms:region:account-ID:key/1234abcd-12ab-34cd-56ef-1234567890ab

  4. 使用 ARN 作為 KMS key 別名。例如:arn:aws:kms:region:account-ID:alias/ExampleAlias

如果使用與目前金鑰AWS 帳戶不同的金鑰AWS 帳戶,您可以使用下列其中一種方式指定 KMS 金鑰:

  1. 使用 ARN 做為 KMS 金鑰識別碼。例如:arn:aws:kms:region:account-ID:key/1234abcd-12ab-34cd-56ef-1234567890ab

  2. 使用 ARN 作為 KMS key 別名。例如:arn:aws:kms:region:account-ID:alias/ExampleAlias

如果您未指定加密金鑰,則輸出會使用預設 Amazon S3 key (SSE-S3) (Amazon S3 key () (Amazon S3 key () (Amazon S3 key () (

如果您指定 KMS 金鑰來加密輸出,則還必須使用OutputLocation參數指定輸出位置。

請注意,發出StartCallAnalyticsJob請求的角色必須得到許可才能使用指定的 KMS key。

類型:String

長度限制:長度下限為 1。長度上限為 2048。

模式:^[A-Za-z0-9][A-Za-z0-9:_/+=,@.-]{0,2048}$

必要:否

OutputKey

搭配使用可指OutputBucketName定成績單的輸出位置,並指定輸出檔案的唯一名稱 (選擇性)。轉錄輸出的預設名稱與您為轉錄工作指定的名稱相同 (TranscriptionJobName)。

以下是一些如何使用的範例OutputKey

  • 如果您將「文檔示例桶」指定為OutputBucketName和「我的轉錄 .json」作為OutputKey,則轉錄輸出路徑為s3://DOC-EXAMPLE-BUCKET/my-transcript.json

  • 如果您指定my-first-transcription '' 作為TranscriptionJobName,'DOC/EXAMPLE-桶' 作為OutputBucketName, 和 '我的轉錄' 作為OutputKey,您的轉錄輸出路徑是s3://DOC-EXAMPLE-BUCKET/my-transcript/my-first-transcription.json

  • 如果將「文檔示例桶」指定為OutputBucketName和「測試文件/我的轉錄 .json」作為OutputKey,則轉錄輸出路徑為s3://DOC-EXAMPLE-BUCKET/test-files/my-transcript.json

  • 如果您指定 'my-first-transcription' 作為TranscriptionJobName,'DOC/EXAMPLE-BUCKER' 作為OutputBucketName,並將「測試文件/我的轉錄」指定為OutputKey,則轉錄輸出路徑為s3://DOC-EXAMPLE-BUCKET/test-files/my-transcript/my-first-transcription.json

如果您指定的 Amazon S3 儲存貯體子資料夾名稱不存在,系統會為您建立一個子資料夾。

類型:String

長度限制:長度下限為 1。長度上限為 1024。

模式:[a-zA-Z0-9-_.!*'()/]{1,1024}$

必要:否

Settings

在您的StartTranscriptionJob要求中指定其他選擇性設定,包括頻道識別、替代轉錄、喇叭分割。您可以使用它來應用自定義詞彙和詞彙過濾器。

如果您想要在您的要求中包含自訂字彙或自訂字彙篩選器 (或兩者),但想使用自動語言識別,請Settings搭配VocabularyName orVocabularyFilterName (或兩者) 子參數搭配使用。

如果您在請求中使用自動語言識別,並且想要包含自訂語言模型、自訂字彙或自訂字彙篩選器,請改用 LanguageIdSettings 參數搭配LanguageModelName,VocabularyNameVocabularyFilterName子參數。

類型:Settings 物件

必要:否

Subtitles

為您的輸入媒體生成字幕文件。您可以指定 WebVTT (*.vtt) 和 SubRip (*.srt) 格式。

類型:Subtitles 物件

必要:否

Tags

在您開始這項新工作時,將一或多個自訂標籤 (每個標籤都以 key: value 組的形式) 新增至新的轉錄工作。

若要進一步了解有關使用 Amazon Transcribe 標籤的詳細資訊,請參閱標記資源

類型:Tag 物件陣列

陣列成員:項目數下限為 1。項目數上限為 200。

必要:否

TranscriptionJobName

由您為轉錄工作選擇的唯一名稱。您指定的名稱也會用作轉錄輸出檔案的預設名稱。如果要為轉錄輸出指定不同的名稱,請使用OutputKey參數。

此名稱區分大小寫,不能包含空格,且在AWS 帳戶. 如果您嘗試建立與現有工作相同名稱的新工作,就會收到ConflictException錯誤訊息。

類型:String

長度限制:長度下限為 1。長度上限為 200。

模式:^[0-9a-zA-Z._-]+

必要:是

回應語法

{ "TranscriptionJob": { "CompletionTime": number, "ContentRedaction": { "PiiEntityTypes": [ "string" ], "RedactionOutput": "string", "RedactionType": "string" }, "CreationTime": number, "FailureReason": "string", "IdentifiedLanguageScore": number, "IdentifyLanguage": boolean, "IdentifyMultipleLanguages": boolean, "JobExecutionSettings": { "AllowDeferredExecution": boolean, "DataAccessRoleArn": "string" }, "LanguageCode": "string", "LanguageCodes": [ { "DurationInSeconds": number, "LanguageCode": "string" } ], "LanguageIdSettings": { "string" : { "LanguageModelName": "string", "VocabularyFilterName": "string", "VocabularyName": "string" } }, "LanguageOptions": [ "string" ], "Media": { "MediaFileUri": "string", "RedactedMediaFileUri": "string" }, "MediaFormat": "string", "MediaSampleRateHertz": number, "ModelSettings": { "LanguageModelName": "string" }, "Settings": { "ChannelIdentification": boolean, "MaxAlternatives": number, "MaxSpeakerLabels": number, "ShowAlternatives": boolean, "ShowSpeakerLabels": boolean, "VocabularyFilterMethod": "string", "VocabularyFilterName": "string", "VocabularyName": "string" }, "StartTime": number, "Subtitles": { "Formats": [ "string" ], "OutputStartIndex": number, "SubtitleFileUris": [ "string" ] }, "Tags": [ { "Key": "string", "Value": "string" } ], "Transcript": { "RedactedTranscriptFileUri": "string", "TranscriptFileUri": "string" }, "TranscriptionJobName": "string", "TranscriptionJobStatus": "string" } }

回應元素

如果動作成功,則服務傳回 HTTP 200 回應。

服務會傳回下列 JSON 格式的資料。

TranscriptionJob

提供有關目前轉錄工作的詳細資訊,包括工作狀態和失敗原因 (如果適用)。

類型:TranscriptionJob 物件

錯誤

如需所有動作常見的錯誤相關資訊,請參閱常見錯誤

BadRequestException

您的要求未通過一或多個驗證測試。當您嘗試刪除的實體不存在或處於非終端狀態(例如IN PROGRESS)時,可能會發生這種情況。如需詳細資訊,請參閱例外訊息欄位。

HTTP 狀態碼:400

ConflictException

具有此名稱的資源已存在。資源名稱在AWS 帳戶.

HTTP 狀態碼:400

InternalFailureException

發生內部錯誤。檢查錯誤訊息,更正問題,然後再試一次。

HTTP 狀態碼:500

LimitExceededException

您可能傳送太多要求,或輸入檔案太長。請先等候再重試您的要求,或使用較小的檔案再試一次。

HTTP 狀態碼:400

另請參閱

如需在語言特定的 AWS 開發套件之一中使用此 API 的詳細資訊,請參閱下列說明: