Modelos de linguagem personalizados - Amazon Transcribe

As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.

Modelos de linguagem personalizados

Modelos de linguagem personalizados são projetados para melhorar a precisão da transcrição para fala de um domínio específico. Isso inclui qualquer conteúdo fora do que você ouviria em conversas normais do dia a dia. Por exemplo, se você estiver transcrevendo os anais de uma conferência científica, é improvável que uma transcrição padrão reconheça muitos dos termos científicos usados pelos apresentadores. Nesse caso, você pode treinar um modelo de linguagem personalizado para reconhecer os termos especializados usados em sua disciplina.

Diferentemente dos vocabulários personalizados, que aumentam o reconhecimento de uma palavra fornecendo dicas (como pronúncias), os modelos de linguagem personalizados aprendem o contexto associado a uma determinada palavra. Isso inclui como e quando uma palavra é usada e a relação que uma palavra tem com outras palavras. Por exemplo, se você treinar seu modelo usando trabalhos de pesquisa em ciências climáticas, seu modelo poderá aprender que “bloco de gelo” é um par de palavras mais provável do que “fluxo de gelo”.

Para ver os idiomas suportados para modelos de linguagem personalizados, consulteIdiomas oferecidos e recursos específicos do idioma. Observe que, se você incluir um modelo de idioma personalizado em sua solicitação, não poderá ativar a identificação do idioma (você deve especificar um código de idioma).

Operações de API específicas para modelos de linguagem personalizados

Fontes de dados

Você pode usar qualquer tipo de dados de texto que quiser para treinar seu modelo. No entanto, quanto mais próximo o conteúdo do texto estiver do conteúdo de áudio, mais preciso será o modelo. Portanto, é importante escolher dados de texto que usem os mesmos termos no mesmo contexto do áudio.

Os melhores dados para treinar um modelo são transcrições precisas. Isso é considerado dado no domínio. Os dados de texto no domínio têm exatamente os mesmos termos, uso e contexto do áudio que você deseja transcrever.

Se você não tiver transcrições precisas, use artigos de periódicos, relatórios técnicos, documentos técnicos, anais de conferências, manuais de instruções, artigos de notícias, conteúdo do site e qualquer outro texto que contenha os termos desejados usados em um contexto semelhante ao do seu áudio. Isso é considerado dado relacionado ao domínio.

A criação de um modelo de idioma personalizado robusto pode exigir uma quantidade significativa de dados de texto, que devem conter os termos falados em seu áudio. Você pode Amazon Transcribe fornecer até 2 GB de dados de texto para treinar seu modelo — isso é chamado de dados de treinamento. Opcionalmente, quando você não tem (ou poucas) transcrições no domínio, você pode Amazon Transcribe fornecer até 200 MB de dados de texto para ajustar seu modelo — isso é chamado de ajuste de dados.

Treinamento versus ajuste de dados

O objetivo dos dados de treinamento é ensinar Amazon Transcribe a reconhecer novos termos e aprender o contexto no qual esses termos são usados. Para criar um modelo robusto, Amazon Transcribe pode ser necessário um grande volume de dados de texto relevantes. É altamente recomendável fornecer o máximo possível de dados de treinamento, até o limite de 2 GB.

O objetivo de ajustar os dados é ajudar a refinar e otimizar as relações contextuais aprendidas com seus dados de treinamento. Dados de ajuste não são necessários para criar um modelo de idioma personalizado.

Cabe a você decidir a melhor forma de selecionar o treinamento e, opcionalmente, ajustar os dados. Cada caso é único e depende do tipo e da quantidade de dados que você tem. Os dados de ajuste são recomendados quando você não tem dados de treinamento no domínio.

Se você optar por incluir os dois tipos de dados, não sobreponha seus dados de treinamento e ajuste; os dados de treinamento e ajuste devem ser exclusivos. A sobreposição de dados pode influenciar e distorcer seu modelo de linguagem personalizado, afetando sua precisão.

Como orientação geral, recomendamos usar texto preciso no domínio como dados de treinamento sempre que possível. Aqui estão alguns cenários gerais, listados em ordem de preferência:

  • Se você tiver mais de 10.000 palavras de texto transcrito preciso no domínio, use-o como dados de treinamento. Nesse caso, não há necessidade de incluir dados de ajuste. Esse é o cenário ideal para treinar um modelo de idioma personalizado.

  • Se você tem um texto de transcrição preciso no domínio que contém menos de 10.000 palavras e não está obtendo os resultados desejados, considere aumentar seus dados de treinamento com textos escritos relacionados ao domínio, como relatórios técnicos. Nesse caso, reserve uma pequena parte (10 a 25%) dos dados de transcrição no domínio para usar como dados de ajuste.

  • Se você não tiver nenhum texto de transcrição no domínio, faça upload de todo o texto relacionado ao domínio como dados de treinamento. Nesse caso, o texto no estilo transcrição é preferível ao texto escrito. Esse é o cenário menos eficaz para treinar um modelo de linguagem personalizado.

Quando estiver pronto para criar seu modelo, consulteCriação de um modelo de linguagem personalizado.