自定义词汇表 - Amazon Transcribe

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

自定义词汇表

使用自定义词汇表来提高一个或多个特定单词的转录准确性。这些术语通常是特定于领域的术语,例如品牌名称和首字母缩略词、专有名词以及无法正确呈现 Amazon Transcribe 的单词。

自定义词汇表可用于所有支持的语言。请注意,只有您的语言字符集中列出的字符才能用于自定义词汇表。

重要

在使用 Amazon Transcribe时,您应对自己数据的完整性负责。请勿在自定义词汇表中输入机密信息、个人信息 (PII) 或受保护的健康信息 (PHI)。

创建自定义词汇表时的注意事项:

  • 每个文件最多可以有 100 个自定义词汇文件 AWS 账户

  • 每个自定义词汇表文件的大小限制为 50 Kb。

  • 如果使用 API 创建自定义词汇表,则您的词汇表文件必须为文本 (*.txt) 格式。如果使用 AWS Management Console,则您的词汇文件可以采用文本 (*.txt) 格式或逗号分隔值 (*.csv) 格式。

  • 自定义词汇表中的每个条目不能超过 256 个字符

  • 要使用自定义词汇表,其创建方式必须与您的转录 AWS 区域 相同。

提示

您可以使用测试您的自定义词汇 AWS Management Console。自定义词汇准备就绪后,请登录,选择 “实时转录” AWS Management Console,滚动到 “定义”,打开 “自定义词汇”,然后从下拉列表中选择您的自定义词汇。然后选择开始流式转录。对着麦克风说出自定义词汇表中的一些单词,看看它们是否正确呈现。

自定义词汇表表格与列表

重要

列表格式的自定义词汇表已被弃用。如果您要创建新的自定义词汇表,请使用表格格式

表格为自定义词汇表中的单词的输入和输出提供了更多选项(和更多控制权)。对于表格,必须指定多个类别 (Phrase and DisplayAs),这样才能对输出进行微调。

列表没有其它选项,因此您只能根据自己的需要键入条目,将所有空格替换为连字符。

AWS Management Console AWS CLI、和 AWS SDK 都以相同的方式使用自定义词汇表;每种方法的列表使用方式不同,因此可能需要额外的格式才能在方法之间成功使用。

有关更多信息,请参阅 使用表格创建自定义词汇表使用列表创建自定义词汇

要更深入地了解如何将 Amazon Augmented AI 用于自定义词汇表,请参阅: