使用自定义词汇和自定义语言模型提高转录准确性 - Amazon Transcribe

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

使用自定义词汇和自定义语言模型提高转录准确性

如果您的媒体包含特定领域或非标准术语,例如品牌名称、首字母缩略词、技术词汇和行话,则Amazon Transcribe可能无法在转录输出中正确捕获这些术语。

要更正转录错误并针对特定用例自定义输出,您可以创建自定义词汇表自定义语言模型

  • 自定义词汇表旨在调整和提高所有上下文中特定单词的识别和格式。这包括提供单词Amazon Transcribe以及(可选)发音和显示表单。

    如果Amazon Transcribe无法正确呈现成绩单中的特定术语,您可以创建一个自定义词汇表文件,告诉您希望Amazon Transcribe如何显示这些术语。这种针对特定单词的方法最适合更正品牌名称和首字母缩略词等术语。

  • 自定义语言模型旨在捕捉与术语相关的上下文。这包括Amazon Transcribe提供大量特定领域的文本数据。

    如果Amazon Transcribe无法正确呈现技术术语或在成绩单中使用了不正确的同音异音,则可以创建自定义语言模型Amazon Transcribe来教授您的领域特定语言。例如,自定义语言模型可以学习何时使用 “floe”(浮冰)与 “流动”(线性流)。

    这种情境感知方法最适合转录大量特定领域的语音。与单独的自定义词汇相比,自定义语言模型可以显著提高准确性。使用批量转录时,您可以在请求中包含自定义语言模型和自定义词汇表。

提示

要实现最高的转录准确性,请将自定义词汇与您的自定义语言模型结合使用。

有关创建和使用自定义词汇表的视频演练,请参阅:

有关创建和使用自定义语言模型的视频演练,请参阅: