CreateLanguageModel - 转录

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

CreateLanguageModel

创建新的自定义语言模型。

在创建新的自定义语言模型时,必须指定:

  • 如果你想要宽带(音频采样率超过 16,000 Hz)或窄带(音频采样率低于 16,000 Hz)基础模型

  • 培训和调整文件的位置(必须是 Ampstancs (常Amazon S3 URI)

  • 模型的语言

  • 模型的唯一名称

有关更多信息,请参阅自定义语言模型

请求语法

{ "BaseModelName": "string", "InputDataConfig": { "DataAccessRoleArn": "string", "S3Uri": "string", "TuningDataS3Uri": "string" }, "LanguageCode": "string", "ModelName": "string", "Tags": [ { "Key": "string", "Value": "string" } ] }

请求参数

有关所有操作的参数的更多信息,请参阅常用参数

请求接受采用 JSON 格式的以下数据。

BaseModelName

Amazon Transcribe 标准语言模型或基本模型用于创建您的自定义语言模型。Amazon Transcribe 为基本型号提供两种选择:宽带和窄带。

如果您要转录的音频采样率为 16,000 Hz 或更高,请选择WideBand。要转录采样率低于 16,000 Hz 的音频,请选择NarrowBand

类型:字符串

有效值: NarrowBand | WideBand

必需:是

InputDataConfig

包含您要用于创建新的自定义语言模型的训练数据的 Amazon S3 位置以及访问该位置的权限。

使用时InputDataConfig,您必须包括以下子参数:S3Uri,这是您的训练数据的 Amazon S3 位置,以及DataAccessRoleArn,这是有权访问您指定 Amazon S3 位置的角色的亚马逊资源名称 (ARN)。您可以选择包括TuningDataS3Uri,这是您的调整数据的 Amazon S3 位置。如果您为训练和调整数据指定不同的 Amazon S3 位置,则您使用的 ARN 必须具有访问这两个位置的权限。

类型:InputDataConfig 对象

必需:是

LanguageCode

代表模型语言的语言代码。每个自定义语言模型必须仅包含一种语言的术语,并且您为自定义语言模型选择的语言必须与训练和调整数据的语言相匹配。

有关支持的语言及其关联语言代码的列表,请参阅支持的语言表。请注意,美国英语 (en-US) 是亚马逊 Transcribe Medical 支持的唯一语言。

自定义语言模型只能用于转录与模型相同语言的文件。例如,如果您使用美国英语 (en-US) 创建自定义语言模型,则只能将此模型应用于包含英语音频的文件。

类型:字符串

有效值: en-US | hi-IN | es-US | en-GB | en-AU | de-DE | ja-JP

必需:是

ModelName

由您为自定义语言模型选择的唯一名称。

此名称区分大小写,不能包含空格,并且在内必须是唯一的AWS 账户。如果您尝试创建与现有自定义语言模型同名的新自定义语言模型,则会出现ConflictException错误。

类型:字符串

长度限制:最小长度为 1。最大长度为 200。

模式:^[0-9a-zA-Z._-]+

必需:是

Tags

在创建新模型时,向新的自定义语言模型添加一个或多个自定义标签,每个标签都以 key: value 对的形式出现。

要了解有关在 Ampct 中使用标签的更多信息,请参阅标记资源

类型:Tag 对象数组

数组成员:最少 1 项。最多 200 项。

必需:否

响应语法

{ "BaseModelName": "string", "InputDataConfig": { "DataAccessRoleArn": "string", "S3Uri": "string", "TuningDataS3Uri": "string" }, "LanguageCode": "string", "ModelName": "string", "ModelStatus": "string" }

响应元素

如果此操作成功,则该服务将会发送回 HTTP 200 响应。

服务以 JSON 格式返回的以下数据。

BaseModelName

您在创建自定义语言模型时指定的 Amazon Transcribe 标准语言模型或基本模型。

类型:字符串

有效值: NarrowBand | WideBand

InputDataConfig

列出您的数据访问角色 ARN(Amazon 资源名称)以及您为训练 (S3Uri) 和调整 (TuningDataS3Uri) 数据提供的 Amazon S3 位置。

类型:InputDataConfig 对象

LanguageCode

您为自定义语言模型选择的语言代码。

类型:字符串

有效值: en-US | hi-IN | es-US | en-GB | en-AU | de-DE | ja-JP

ModelName

您的自定义语言模型的名称。

类型:字符串

长度限制:最小长度为 1。最大长度为 200。

模式:^[0-9a-zA-Z._-]+

ModelStatus

您的自定义语言模型的状态。当状态显示为时COMPLETED,模型即可使用。

类型:字符串

有效值: IN_PROGRESS | FAILED | COMPLETED

错误

有关所有操作常见错误的信息,请参阅常见错误

BadRequestException

您的请求未通过一项或多项验证测试。当您要删除的实体不存在或处于非终端状态(例如IN PROGRESS)时,可能会发生这种情况。有关更多信息,请参阅异常消息字段。

HTTP 状态代码:400

ConflictException

使用此名称的资源已经存在。中的资源名称必须是唯一的AWS 账户。

HTTP 状态代码:400

InternalFailureException

遇到了内部错误。检查错误消息、更正问题,然后重试请求。

HTTP 状态代码:500

LimitExceededException

你要么发送了太多的请求,要么你的输入文件太长。请稍候,然后重试您的请求,或者使用较小的文件重试您的请求。

HTTP 状态代码:400

另请参阅

有关在特定语言的 AWS 软件开发工具包中使用此 API 的更多信息,请参阅以下内容: