Fontes de dados Dados de treinamento versus dados de ajuste

Modelos de idioma personalizados

Os modelos de idioma personalizados são projetados para melhorar a precisão da transcrição de fala específica do domínio. Isso inclui qualquer conteúdo além do que você ouviria em conversas normais do dia a dia. Por exemplo, se você estiver transcrevendo os anais de uma conferência científica, é improvável que uma transcrição padrão reconheça muitos dos termos científicos usados pelos palestrantes. Nesse caso, você pode treinar um modelo de idioma personalizado para reconhecer os termos especializados usados em sua disciplina.

Ao contrário dos vocabulários personalizados, que aumentam o reconhecimento de uma palavra fornecendo dicas (como pronúncias), os modelos de idioma personalizados aprendem o contexto associado a determinada palavra. Isso inclui como e quando uma palavra é usada e a relação que uma palavra tem com outras palavras. Por exemplo, se você treinar o modelo usando artigos de pesquisa em ciências climáticas, o modelo poderá aprender que “ice floe” (bloco de gelo) é um par de palavras mais provável do que “ice flow” (fluxo de gelo).

Para ver os idiomas que permitem modelos de idioma personalizados, consulte Idiomas oferecidos e recursos específicos do idioma. Observe que, se você incluir um modelo de idioma personalizado na solicitação, não poderá habilitar a identificação de idioma (você deve especificar um código de idioma).

Operações de API específicas para modelos de idioma personalizados

CreateLanguageModel, DeleteLanguageModel, DescribeLanguageModel, ListLanguageModels

Fontes de dados

Você pode usar qualquer tipo de dados de texto que desejar para treinar seu modelo. No entanto, quanto mais próximo o conteúdo de texto estiver do conteúdo de áudio, mais preciso será o modelo. Portanto, é importante escolher dados de texto que usem os mesmos termos no mesmo contexto do áudio.

Os melhores dados para treinar um modelo são transcrições precisas. Eles são considerados dados dentro do domínio. Os dados de texto no domínio têm exatamente os mesmos termos, uso e contexto do áudio que você deseja transcrever.

Se você não tiver transcrições precisas, use artigos de periódicos, relatórios técnicos, whitepapers, anais de conferências, manuais de instruções, matérias jornalísticas, conteúdo de site e qualquer outro texto que contenha os termos desejados que são usados em um contexto semelhante ao do áudio. Eles são considerados dados relacionados ao domínio.

A criação de um modelo de idioma personalizado robusto pode exigir uma quantidade significativa de dados de texto, que devem conter os termos falados no áudio. Você pode Amazon Transcribe fornecer até 2 GB de dados de texto para treinar seu modelo — isso é chamado de dados de treinamento. Opcionalmente, quando você não tem (ou tem poucas) transcrições no domínio, você pode Amazon Transcribe fornecer até 200 MB de dados de texto para ajustar seu modelo — isso é chamado de dados de ajuste.

Dados de treinamento versus dados de ajuste

O objetivo dos dados de treinamento é ensinar Amazon Transcribe a reconhecer novos termos e aprender o contexto em que esses termos são usados. Para criar um modelo robusto, o Amazon Transcribe pode exigir um grande volume de dados de texto relevantes. É altamente recomendável fornecer o máximo possível de dados de treinamento, até o limite de 2 GB.

O objetivo dos dados de ajuste é ajudar a refinar e otimizar as relações contextuais aprendidas com os dados de treinamento. Os dados de ajuste não são necessários para criar um modelo de idioma personalizado.

Cabe a você decidir a melhor forma de selecionar os dados de treinamento e, opcionalmente, de ajuste. Cada caso é único e depende do tipo e da quantidade de dados que você tem. Os dados de ajuste são recomendados quando você não tem dados de treinamento no domínio.

Se você optar por incluir os dois tipos de dados, não sobreponha os dados de treinamento e ajuste; os dados de treinamento e ajuste devem ser exclusivos. A sobreposição de dados pode predispor e distorcer o modelo de idioma personalizado e afetar sua precisão.

Como orientação geral, é recomendável usar, sempre que possível, textos precisos no domínio como dados de treinamento. Veja alguns cenários gerais, listados em ordem de preferência:

Se você tiver mais de dez mil palavras de texto transcrito preciso no domínio, use-as como dados de treinamento. Nesse caso, não há necessidade de incluir dados de ajuste. Esse é o cenário ideal para treinar um modelo de idioma personalizado.
Se você tiver um texto de transcrição preciso no domínio que contenha menos de dez mil palavras e não esteja obtendo os resultados desejados, considere aumentar os dados de treinamento com textos escritos relacionados ao domínio, como relatórios técnicos. Nesse caso, reserve uma pequena parte (de 10% a 25%) dos dados de transcrição no domínio para usar como dados de ajuste.
Se você não tiver um texto de transcrição no domínio, carregue todo o texto relacionado ao seu domínio como dados de treinamento. Nesse caso, o texto no estilo de transcrição é preferível ao texto escrito. Esse é o cenário menos eficaz para treinar um modelo de idioma personalizado.

Quando tudo estiver pronto para criar seu modelo, consulte Criar um modelo de idioma personalizado.

Atenção O Javascript está desativado ou não está disponível no seu navegador.

Para usar a documentação da AWS, o Javascript deve estar ativado. Consulte as páginas de Ajuda do navegador para obter instruções.

Convenções do documento

Usar um vocabulário personalizado

Criar um modelo de idioma personalizado