自定义语言模型 - Amazon Transcribe

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

自定义语言模型

自定义语言模型旨在提高特定领域语音的转录准确性。这包括您在正常的日常对话中听到的内容之外的任何内容。例如,如果您要转录科学会议的会议记录,则标准转录不太可能识别主持人使用的许多科学术语。在这种情况下,您可以训练自定义语言模型以识别您的学科中使用的专业术语。

与自定义词汇不同,自定义词汇通过提供提示(例如发音)来提高单词的识别能力,而自定义语言模型则学习与给定单词相关的上下文。这包括单词的使用方式和时间,以及单词与其他单词的关系。例如,如果你使用气候科学研究论文训练模型,你的模型可能会得知 “浮冰” 比 “冰流” 更有可能成为词对。

要查看自定义语言模型支持的语言,请参阅支持的语言和特定语言的特征。请注意,如果您在请求中包含自定义语言模型,则无法启用语言识别(必须指定语言代码)。

特定于自定义语言模型的 API 操作

数据源

您可以使用任何类型的文本数据来训练模型。但是,您的文本内容与音频内容越接近,您的模型就越准确。因此,在与音频相同的上下文中选择使用相同术语的文本数据非常重要。

训练模型的最佳数据是准确的记录文本。这被视为域内数据。域内文本数据的术语、用法和上下文与您要转录的音频完全相同。

如果您没有准确的笔录,请使用期刊文章、技术报告、白皮书、会议记录、指导手册、新闻文章、网站内容以及任何其他包含与音频环境相似的所需术语的文本。这被视为与域名相关的数据。

创建强大的自定义语言模型可能需要大量的文本数据,其中必须包含音频中使用的术语。您可以Amazon Transcribe提供多达 2 GB 的文本数据来训练模型,这称为训练数据。或者,如果您没有(或很少)域内转录,则可以Amazon Transcribe提供多达 200 MB 的文本数据来调整模型,这称为调整数据。

训练与调整数据

训练数据的Amazon Transcribe目的是教导人们识别新术语并了解这些术语的使用上下文。为了创建可靠的模型,Amazon Transcribe可能需要大量的相关文本数据。强烈建议提供尽可能多的训练数据,不超过 2 GB 的限制。

调整数据的目的是帮助完善和优化从训练数据中学到的情境关系。创建自定义语言模型不需要调整数据。

由您决定如何最好地选择训练和调整数据(可选)。每种情况都是独一无二的,取决于您拥有的数据类型和数量。当您缺少域内训练数据时,建议使用调整数据。

如果您选择同时包含这两种数据类型,请重叠训练和调整数据;训练和调整数据应是唯一的。重叠数据可能会使您的自定义语言模型产生偏差和偏差,从而影响其准确性。

作为一般指导,我们建议尽可能使用准确的域内文本作为训练数据。以下是一些一般场景,按优先顺序列出:

  • 如果您有超过 10,000 字的准确域内转录文本,请将其用作训练数据。在这种情况下,无需包含调整数据。这是训练自定义语言模型的理想方案。

  • 如果您有准确的域内转录文本,包含的单词少于 10,000 个单词且未获得预期的结果,请考虑使用与领域相关的书面文本(例如技术报告)来补充您的训练数据。在这种情况下,保留一小部分(10-25%)的域内转录数据用作调整数据。

  • 如果您没有域内转录文本,请上传所有与域名相关的文本作为训练数据。在这种情况下,转录样式的文本比书面文本更可取。这是训练自定义语言模型的最不有效的方案。

准备好创建模型时,请参见创建自定义语言模型