Reconhecimento de entidade personalizado

O reconhecimento personalizado de entidades amplia a capacidade do Amazon Comprehend, ajudando você a identificar seus novos tipos de entidade específicos que não estão nos tipos de entidade genéricos predefinidos. Isso significa que você pode analisar documentos e extrair entidades, como códigos de produtos ou entidades específicas de negócios, que atendam às suas necessidades específicas.

Criar um reconhecedor personalizado de entidades preciso por conta própria pode ser um processo complexo, exigindo a preparação de grandes conjuntos de documentos de treinamento anotados manualmente e a seleção dos algoritmos e parâmetros certos para o treinamento de modelos. O Amazon Comprehend ajuda a reduzir a complexidade fornecendo anotações automáticas e desenvolvimento de modelos para criar um modelo personalizado de reconhecimento de entidades.

Criar um modelo personalizado de reconhecimento de entidades é uma abordagem mais eficaz do que usar correspondências de strings ou expressões regulares para extrair entidades de documentos. Por exemplo, para extrair nomes de ENGENHEIROS em um documento, é difícil enumerar todos os nomes possíveis. Além disso, sem contexto, é difícil distinguir entre nomes de ENGENHEIROS e nomes de ANALISTAS. Um modelo personalizado de reconhecimento de entidades pode aprender o contexto em que esses nomes provavelmente aparecerão. Além disso, a correspondência de strings não detectará entidades que tenham erros de digitação ou sigam novas convenções de nomenclatura, embora isso seja possível usando um modelo personalizado.

Você tem duas opções para criar um modelo personalizado:

Anotações – forneça um conjunto de dados contendo entidades anotadas para treinamento de modelos.
Listas de entidades (em texto simples apenas) – forneça uma lista de entidades e seu rótulo de tipo (como PRODUCT_CODES e um conjunto de documentos não anotados contendo essas entidades) para treinamento de modelos.

Ao criar um reconhecedor personalizado de entidades usando arquivos PDF anotados, você pode usar esse reconhecedor com vários formatos de arquivo de entrada: texto simples, arquivos de imagem (JPG, PNG, TIFF), arquivos PDF e documentos do Word, sem a necessidade de pré-processamento ou nivelamento de documentos. O Amazon Comprehend não oferece suporte à anotação de arquivos de imagem ou documentos do Word.

nota

Um reconhecedor personalizado de entidades que use arquivos PDF anotados oferece suporte somente a documentos em inglês.

Você pode treinar um modelo em até 25 entidades personalizadas ao mesmo tempo. Para obter mais detalhes, consulte a página Diretrizes e cotas.

Depois que seu modelo for treinado, você poderá usá-lo para detecção de entidades em tempo real e em trabalhos de detecção de entidades.

Tópicos

Atenção O Javascript está desativado ou não está disponível no seu navegador.

Para usar a documentação da AWS, o Javascript deve estar ativado. Consulte as páginas de Ajuda do navegador para obter instruções.

Convenções do documento

Saídas para trabalhos de análise

Preparar os dados de treinamento