Preparando dados de treinamento do reconhecedor de entidades - Amazon Comprehend

As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.

Preparando dados de treinamento do reconhecedor de entidades

Para treinar um modelo de reconhecimento personalizado de entidade bem-sucedido, é importante fornecer ao treinador de modelos dados de alta qualidade como entrada. Sem bons dados, o modelo não aprenderá a identificar entidades corretamente.

Você pode escolher uma das duas formas de fornecer dados ao Amazon Comprehend para treinar um modelo personalizado de reconhecimento de entidades:

  • Lista de entidades – lista as entidades específicas para que o Amazon Comprehend possa treinar para identificar suas entidades personalizadas. Observação: as listas de entidades só podem ser usadas para documentos de texto simples.

  • Anotações — fornece a localização de suas entidades em vários documentos para que o Amazon Comprehend possa treinar tanto na entidade quanto em seu contexto. Para criar um modelo para analisar arquivos de imagem, PDFs ou documentos do Word, você deve treinar seu reconhecedor usando anotações em PDF.

Em ambos os casos, o Amazon Comprehend aprende sobre o tipo de documentos e o contexto em que as entidades ocorrem e cria um reconhecedor que pode ser generalizado para detectar as novas entidades quando você analisa documentos.

Ao criar um modelo personalizado (ou treinar uma nova versão), você pode fornecer um conjunto de dados de teste. Se você não fornecer dados de teste, o Amazon Comprehend reserva 10% dos documentos de entrada para testar o modelo. O Amazon Comprehend treina o modelo com os documentos restantes.

Se você fornecer um conjunto de dados de teste para o seu conjunto de treinamento de anotações, os dados de teste devem incluir pelo menos uma anotação para cada um dos tipos de entidade especificados na solicitação de criação.

Quando usar anotações em vez de listas de entidades

Criar anotações dá mais trabalho do que criar uma lista de entidades, mas o modelo resultante pode ser significativamente mais preciso. Usar uma lista de entidades é mais rápido e menos trabalhoso, mas os resultados são menos refinados e menos precisos. Isso ocorre porque as anotações fornecem mais contexto para o Amazon Comprehend usar ao treinar o modelo. Sem esse contexto, o Amazon Comprehend terá um número maior de falsos positivos ao tentar identificar as entidades.

Há cenários em que faz mais sentido para os negócios evitar grandes despesas e workload usando anotações. Por exemplo, o nome John Johnson é importante para sua pesquisa, mas, se essa é a pessoa exata, não é relevante. Ou as métricas, ao usar a lista de entidades, são boas o suficiente para fornecer os resultados do reconhecedor de que você precisa. Nesses casos, usar uma lista de entidades em vez disso pode ser a opção mais eficaz.

Recomendamos o uso do modo de anotações nos seguintes casos:

  • Se você planeja executar inferências para arquivos de imagem, PDFs ou documentos do Word. Nesse cenário, você treina um modelo usando arquivos em PDF anotados e usa o modelo para executar trabalhos de inferência para arquivos de imagem, PDFs e documentos do Word.

  • Quando o significado das entidades pode ser ambíguo e dependente do contexto. Por exemplo, o termo Amazon pode se referir ao rio no Brasil ou ao varejista online Amazon.com. Ao criar um reconhecedor personalizado de entidades para identificar entidades comerciais como a Amazon, você deve usar anotações em vez de uma lista de entidades, pois esse método é mais capaz de usar o contexto para encontrar entidades.

  • Quando você se sentir confortável em configurar um processo para adquirir anotações, o que pode exigir algum esforço.

Recomendamos usar uma lista de entidades nos seguintes casos:

  • Quando você já tem uma lista de entidades ou quando é relativamente fácil compor uma lista abrangente de entidades. Se você usa uma lista de entidades, a lista deve estar completa ou, pelo menos, abranger a maioria das entidades válidas que podem aparecer nos documentos que você fornece para treinamento.

  • Geralmente, para usuários iniciantes, é recomendável usar uma lista de entidades, porque isso exige menos esforço do que criar anotações. No entanto, é importante observar que o modelo treinado pode não ser tão preciso quanto se você usasse anotações.