自定义语言模型

自定义语言模型旨在提高特定领域语音的转录准确性。这包括您在正常的日常对话中听到的内容之外的任何内容。例如，如果您要转录科学会议的文献，标准转录不太可能识别主持人使用的许多科学术语。在这种情况下，您可以训练自定义语言模型来识别您的专业领域中使用的专业术语。

与自定义词汇表不同，自定义词汇表通过提供提示（例如发音）来提高对单词的识别，而自定义语言模型则学习与给定单词相关的上下文。这包括单词的使用方式和时间，以及单词与其它单词的关系。例如，如果您使用气候科学研究论文训练模型，您的模型可能会发现“ice floe”比“ice flow”更有可能是一对词。

要查看自定义语言模型支持的语言，请参阅支持的语言和特定语言的特征。请注意，如果您在请求中包含自定义语言模型，则无法启用语言识别（必须指定语言代码）。

特定于自定义语言模型的 API 操作

CreateLanguageModel, DeleteLanguageModel, DescribeLanguageModel, ListLanguageModels

数据来源

您可以使用任何类型的文本数据来训练模型。但是，文本内容离音频内容越近，模型就越准确。因此，选择的文本数据务必与音频使用相同的上下文和相同的术语。

训练模型的最佳数据是准确的转录。这被视为领域内数据。领域内文本数据与您要转录的音频具有完全相同的术语、用法和上下文。

如果您的转录不准确，请使用期刊文章、技术报告、白皮书、会议文献、说明手册、新闻文章、网站内容以及任何其它包含所需术语的文本，这些术语与音频的上下文类似。这被视为与领域相关的数据。

创建强大的自定义语言模型可能需要大量的文本数据，这些数据必须包含音频中使用的术语。您可以 Amazon Transcribe 提供最多 2 GB 的文本数据来训练模型，这称为训练数据。或者，当您没有（或很少）域内脚本时，可以 Amazon Transcribe 提供最多 200 MB 的文本数据来调整模型，这称为调整数据。

训练与调整数据

训练数据的目的是教导 Amazon Transcribe 人们识别新术语并了解这些术语的使用背景。为了创建稳健的模型， Amazon Transcribe 可能需要大量相关的文本数据。强烈建议提供尽可能多的训练数据，上限不超过 2 GB。

调整数据的目的是帮助完善和优化从训练数据中了解到的情境关系。创建自定义语言模型不需要调整数据。

您可以决定如何最好地选择训练以及调整数据（可选）。每种情况都是不一样的，取决于您拥有的数据类型和数量。如果您缺少领域内训练数据，建议您使用调整数据。

如果您选择同时包含这两种数据类型，请不要让训练和调整数据重叠；训练和调整数据应是唯一的。数据重叠可能会使您的自定义语言模型产生偏差和偏颇，从而影响其准确性。

作为一般指导，我们建议尽可能使用准确的领域内文本作为训练数据。以下是一些按优先顺序列出的常规场景：

如果您有超过 1 万字的准确领域内转录文本，请将其用作训练数据。在这种情况下，无需包含调整数据。这是训练自定义语言模型的理想场景。
如果您的领域内转录文本包含的单词少于 1 万个，没有得到预期的结果，请考虑使用与领域相关的书面文本（例如技术报告）来补充您的训练数据。在这种情况下，请保留领域内转录数据的一小部分 (10-25%) 用作调整数据。
如果您没有领域内转录文本，请将所有与领域相关的文本作为训练数据上传。在这种情况下，转录式文本比书面文本效果更好。对于训练自定义语言模型来说，这是效果最不好的场景。

当您准备好创建模型时，请参阅创建自定义语言模型。

Javascript 在您的浏览器中被禁用或不可用。

要使用 Amazon Web Services 文档，必须启用 Javascript。请参阅浏览器的帮助页面以了解相关说明。

文档惯例

使用自定义词汇表

创建自定义语言模型