Anotações - Amazon Comprehend

As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.

Anotações

As anotações rotulam entidades no contexto, associando os tipos personalizados de entidade aos locais nos quais elas ocorrem nos seus documentos de treinamento.

Ao enviar anotações junto com seus documentos, você pode aumentar a precisão do modelo. Com as Anotações, você não está simplesmente fornecendo a localização da entidade que está procurando, mas também fornecendo um contexto mais preciso para a entidade personalizada que está procurando.

Por exemplo, se você estiver procurando pelo nome John Johnson, com o tipo de entidade JUIZ, fornecer a sua anotação pode ajudar o modelo a descobrir que a pessoa que você deseja encontrar é um juiz. Se conseguir usar o contexto, o Amazon Comprehend não encontrará pessoas chamadas John Johnson que sejam advogados ou testemunhas. Sem as anotações, o Amazon Comprehend criará sua própria versão de uma anotação, mas não será tão eficaz em incluir apenas juízes. O fornecimento de suas próprias anotações pode ajudar a obter melhores resultados e gerar modelos capazes de aproveitar melhor o contexto ao extrair entidades personalizadas.

Número mínimo de anotações

O número mínimo de documentos de entrada e anotações necessários para treinar um modelo depende do tipo de anotações.

Anotações em PDF

Para criar um modelo para analisar arquivos de imagem, PDFs ou documentos do Word, treine seu reconhecedor usando anotações em PDF. Para anotações em PDF, forneça pelo menos 250 documentos de entrada e pelo menos 100 anotações por entidade.

Se você fornecer um conjunto de dados de teste, os dados de teste devem incluir pelo menos uma anotação para cada um dos tipos de entidade especificados na solicitação de criação.

Anotações em texto simples

Para criar um modelo para analisar documentos de texto, você pode treinar seu reconhecedor usando anotações em texto simples.

Para anotações em texto simples, forneça pelo menos três documentos de entrada anotados e pelo menos 25 anotações por entidade. Se você fornecer menos de 50 anotações no total, o Amazon Comprehend reservará mais de 10% dos documentos de entrada para testar o modelo (a menos que você tenha fornecido um conjunto de dados de teste na solicitação de treinamento). Não se esqueça de que o tamanho mínimo do corpo do documento é de 5 KB.

Se sua entrada contiver apenas alguns documentos de treinamento, você poderá encontrar um erro dizendo que os dados de entrada de treinamento contêm poucos documentos que mencionam uma das entidades. Envie o trabalho novamente com documentos adicionais que mencionem a entidade.

Se você fornecer um conjunto de dados de teste, os dados de teste devem incluir pelo menos uma anotação para cada um dos tipos de entidade especificados na solicitação de criação.

Para ver um exemplo de como comparar um modelo com um pequeno conjunto de dados, consulte Amazon Comprehend anuncia limites menores de anotação para reconhecimento personalizado de entidades no site do blog da AWS.

Práticas recomendadas de anotação

Há vários aspectos a levar em consideração para obter o melhor resultado ao usar anotações, inclusive:

  • Anotar seus dados com cuidado e verifiqcar se você anotou todas as menções à entidade. Anotações imprecisas podem levar a resultados ruins.

  • Os dados de entrada não devem conter duplicatas, como a duplicata de um PDF que você vai anotar. A presença de uma amostra duplicada pode resultar na contaminação do conjunto de testes e afetar negativamente o processo de treinamento, as métricas do modelo e o comportamento do modelo.

  • Certifique-se de que todos os seus documentos estejam anotados e que os documentos sem anotações sejam decorrentes da falta de entidades legítimas e não por negligência. Por exemplo, se você tiver um documento que diz “J Doe é engenheiro há 14 anos”, você também deve fornecer uma anotação para “J Doe”, bem como para “John Doe”. A não observância disso confundirá o modelo e poderá fazer com que o modelo não reconheça “J Doe” como ENGENHEIRO. Isso deve ser consistente no mesmo documento e em todos os documentos.

  • Em geral, mais anotações levam a melhores resultados.

  • Você pode treinar um modelo com o número mínimo de documentos e anotações, mas a adição de dados costuma melhorar o modelo. Recomendamos aumentar o volume de dados anotados em 10% para aumentar a precisão do modelo. Você pode executar a inferência em um conjunto de dados de teste que permaneça inalterado e possa ser testado por diferentes versões do modelo. Em seguida, você pode comparar as métricas de versões sucessivas do modelo.

  • Forneça documentos que tenham a maior semelhança possível com os casos de uso reais. Deve-se evitar dados sintetizados com padrões repetitivos. Os dados de entrada devem ser os diversos possíveis para evitar sobreajustes e ajudar o modelo subjacente a fazer uma generalização melhor em exemplos reais.

  • É importante que os documentos sejam diversos em termos de contagem de palavras. Por exemplo, se todos os documentos nos dados de treinamento forem curtos, o modelo resultante poderá ter dificuldade em prever entidades em documentos mais longos.

  • Tente fornecer a mesma distribuição de dados para treinamento que você espera usar quando estiver detectando efetivamente suas entidades personalizadas (tempo de inferência). Por exemplo, no momento da inferência, se você espera nos enviar documentos que não contenham entidades, isso também deverá integrar seu conjunto de documentos de treinamento.

Para obter sugestões adicionais, consulte Como melhorar o desempenho do reconhecedor personalizado de entidades.