Treinar reconhecedores personalizados (console) - Amazon Comprehend

As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.

Treinar reconhecedores personalizados (console)

Crie reconhecedores de entidade personalizados usando o console do Amazon Comprehend. Esta seção mostra como criar e treinar um reconhecedor de entidade personalizado.

Tópicos

    Para criar o reconhecedor de entidades personalizado, primeiro forneça um conjunto de dados para treinar seu modelo. Com esse conjunto de dados, inclua um dos seguintes: um conjunto de documentos anotados ou uma lista de entidades e seu rótulo de tipo, junto com um conjunto de documentos contendo essas entidades. Para mais informações, consulte Reconhecimento de entidade personalizado.

    Treinar um reconhecedor de entidade personalizado com um arquivo CSV
    1. Faça login AWS Management Console e abra o console do Amazon Comprehend em https://console.aws.amazon.com/comprehend/

    2. No menu à esquerda, escolha Personalização e, em seguida, Reconhecimento de entidade personalizado.

    3. Escolha Criar novo modelo.

    4. Dê um nome ao reconhecedor. O nome deve ser exclusivo em uma região e conta.

    5. Escolha o idioma.

    6. Em Tipo de entidade personalizada, insira um rótulo personalizado que deseja que o reconhecedor encontre no conjunto de dados.

      O tipo de entidade deve estar em maiúsculas e, se consistir em mais de uma palavra, separe as palavras com um sublinhado.

    7. Escolha Adicionar tipo.

    8. Se quiser adicionar um tipo de entidade adicional, insira-o e escolha Adicionar tipo. Se quiser remover um dos tipos de entidade adicionados, escolha Remover tipo e selecione o tipo de entidade a ser removido da lista. Podem ser listados, no máximo, 25 tipos de entidades.

    9. Para criptografar sua tarefa de treinamento, escolha Criptografia do reconhecedor e, em seguida, se deseja usar uma chave KMS associada à conta atual ou de outra conta.

      • Se estiver usando uma chave associada à conta atual, escolha o ID da chave KMS.

      • Se estiver usando uma chave associada a uma conta diferente, insira o ARN da chave KMS para o ID da chave.

      nota

      Para mais informações sobre como criar e usar chaves KMS e a criptografia associada, consulte AWS Key Management Service.

    10. Em Especificações de dados, escolha o formato dos seus documentos de treinamento:

      • Arquivo CSV: um arquivo CSV que complementa seus documentos de treinamento. O arquivo CSV contém informações sobre as entidades personalizadas que seu modelo treinado vai detectar. O formato exigido do arquivo depende se você está fornecendo anotações ou uma lista de entidades.

      • Manifesto aumentado — Um conjunto de dados rotulado produzido pela Amazon Ground Truth SageMaker . Esse arquivo está no formato de linhas JSON. Cada linha é um objeto JSON completo que contém um documento de treinamento e seus rótulos. Cada rótulo anota uma entidade nomeada no documento de treinamento. Você pode fornecer até 5 arquivos de manifesto aumentado.

      Para mais informações sobre os formatos disponíveis e para obter exemplos, consulte Treinamento de modelos reconhecedores de entidades personalizados.

    11. Em Tipo de treinamento, escolha o tipo de treinamento a ser usado:

      • Usando anotações e documentos de treinamento

      • Usando lista de entidades e documentos de treinamento

      Se escolher anotações, insira a URL do arquivo de anotações no Amazon S3. Você também pode navegar até o bucket ou pasta no Amazon S3 onde os arquivos de anotação estão localizados e escolher Procurar no S3.

      Se escolher a lista de entidades, insira a URL da lista no Amazon S3. Você também pode navegar até o bucket ou pasta no Amazon S3 onde a lista de entidades está localizada e escolher Procurar no S3.

    12. Insira a URL de um conjunto de dados de entrada contendo os documentos de treinamento no Amazon S3. Você também pode navegar até o bucket ou pasta no Amazon S3 onde os documentos de treinamento estão localizados e escolher Selecionar pasta.

    13. Em Conjunto de dados de teste, selecione como deseja avaliar o desempenho do seu modelo treinado, tanto para anotações quanto para os tipos de treinamento da lista de entidades.

      • Divisão automática: a divisão automática seleciona automaticamente 10% dos seus dados de treinamento para usar como dados de teste.

      • (Opcional) Fornecido pelo cliente: ao selecionar essa opção, você pode especificar exatamente quais dados de teste deseja usar.

    14. Se selecionar o conjunto de dados de teste fornecido pelo cliente, insira a URL do arquivo de anotações no Amazon S3. Você também pode navegar até o bucket ou pasta no Amazon S3 onde os arquivos de anotação estão localizados e escolher Selecionar pasta.

    15. Na seção Escolha um perfil do IAM, selecione um perfil do IAM existente ou crie um novo.

      • Escolha um perfil do IAM existente: selecione essa opção se já tiver um perfil do IAM com permissões para acessar os buckets de entrada e saída do Amazon S3.

      • Criar um novo perfil do IAM: selecione essa opção quando quiser criar um novo perfil do IAM com as permissões adequadas para que o Amazon Comprehend acesse os buckets de entrada e saída.

        nota

        Se os documentos de entrada forem criptografados, o perfil do IAM usado deverá ter permissão para o kms:Decrypt. Para ter mais informações, consulte Permissões necessárias para usar a criptografia KMS.

    16. (Opcional) Para lançar seus recursos no Amazon Comprehend a partir de uma VPC, insira o ID da VPC em VPC ou escolha o ID na lista suspensa.

      1. Escolha a sub-rede em Sub-rede(s). Depois de selecionar a primeira sub-rede, é possível escolher outras adicionais.

      2. Em Grupo(s) de segurança, escolha o grupo de segurança a ser usado se tiver especificado um. Depois de selecionar o primeiro grupo de segurança, é possível escolher outros.

      nota

      Quando você usa uma VPC com sua tarefa personalizada de reconhecimento de entidades, o DataAccessRole usado para as operações Create and Start deve ter permissões para a VPC a partir da qual os documentos de entrada e o bucket de saída são acessados.

    17. (Opcional) Para adicionar uma tag ao reconhecedor de entidade personalizado, insira um par de valores-chave em Tags. Escolha Adicionar Tag. Para remover esse par antes de criar o reconhecedor, escolha Remover tag.

    18. Escolha Treinar.

    O novo reconhecedor aparecerá na lista, mostrando seu status. Ele será exibido primeiro como Submitted. Em seguida, ele será exibido como Training para um classificador que está processando documentos de treinamento, Trained para um classificador pronto para uso e In error para um classificador com erro. Você pode clicar em uma tarefa para obter mais informações sobre o reconhecedor, incluindo mensagens de erro.

    Treinar um reconhecedor de entidade personalizado com um documento de texto sem formatação, PDF ou Word
    1. Faça login no AWS Management Console e abra o console do Amazon Comprehend.

    2. No menu à esquerda, escolha Personalização e, em seguida, Reconhecimento de entidade personalizado.

    3. Escolha Treinar reconhecedor.

    4. Dê um nome ao reconhecedor. O nome deve ser exclusivo em uma região e conta.

    5. Escolha o idioma. Observação: se estiver treinando um documento PDF ou Word, o inglês é o idioma compatível.

    6. Em Tipo de entidade personalizada, insira um rótulo personalizado que deseja que o reconhecedor encontre no conjunto de dados.

      O tipo de entidade deve estar em maiúsculas e, se consistir em mais de uma palavra, separe as palavras com um sublinhado.

    7. Escolha Adicionar tipo.

    8. Se quiser adicionar um tipo de entidade adicional, insira-o e escolha Adicionar tipo. Se quiser remover um dos tipos de entidade adicionados, escolha Remover tipo e selecione o tipo de entidade a ser removido da lista. Podem ser listados, no máximo, 25 tipos de entidades.

    9. Para criptografar sua tarefa de treinamento, escolha Criptografia do reconhecedor e, em seguida, se deseja usar uma chave KMS associada à conta atual ou de outra conta.

      • Se estiver usando uma chave associada à conta atual, escolha o ID da chave KMS.

      • Se estiver usando uma chave associada a uma conta diferente, insira o ARN da chave KMS para o ID da chave.

      nota

      Para mais informações sobre como criar e usar chaves KMS e a criptografia associada, consulte AWS Key Management Service.

    10. Em Dados de treinamento, escolha Manifesto aumentado como seu formato de dados:

      • Manifesto aumentado — é um conjunto de dados rotulado produzido pela Amazon Ground Truth SageMaker . Esse arquivo está no formato de linhas JSON. Cada linha do arquivo é um objeto JSON completo contendo um documento de treinamento e seus rótulos. Cada rótulo anota uma entidade nomeada no documento de treinamento. Você pode fornecer até 5 arquivos de manifesto aumentado. Se estiver usando documentos PDF para dados de treinamento, deverá selecionar Manifesto aumentado. Você pode fornecer até 5 arquivos de manifesto aumentado. Para cada arquivo, nomeie até 5 atributos para usar como dados de treinamento.

      Para mais informações sobre os formatos disponíveis e para obter exemplos, consulte Treinamento de modelos reconhecedores de entidades personalizados.

    11. Selecione o tipo de modelo de treinamento.

      Se você selecionou documentos de texto simples, em Local de entrada, insira o Amazon S3URL do arquivo de manifesto aumentado Amazon SageMakerGround Truth. Você também pode navegar até o bucket ou pasta no Amazon S3 onde os manifesto(s) aumentado(s) estão localizados e escolher Selecionar pasta.

    12. Para os Nomes dos atributos, insira o nome do atributo contendo suas anotações. Se o arquivo contiver anotações de várias tarefas de rotulagem em cadeia, adicione um atributo para cada tarefa. Nesse caso, cada atributo contém o conjunto de anotações de uma tarefa de rotulagem. Observação: você pode fornecer até 5 nomes de atributos para cada arquivo.

    13. Select Adicionar.

    14. Se você selecionou documentos PDF e Word em Local de entrada, insira o Amazon S3URL do arquivo de manifesto aumentado Amazon SageMaker Ground Truth. Você também pode navegar até o bucket ou pasta no Amazon S3 onde os manifesto(s) aumentado(s) estão localizados e escolher Selecionar pasta.

    15. Insira o prefixo S3 para seus arquivos de dados de Anotação. Esses são os documentos PDF que você rotulou.

    16. Insira o prefixo S3 para seus documentos de Origem. Esses são os documentos PDF originais (objetos de dados) fornecidos ao Ground Truth para sua tarefa de rotulagem.

    17. Insira os nomes dos atributos que contêm suas anotações. Observação: você pode fornecer até 5 nomes de atributos para cada arquivo. Todos os atributos não especificados em seu arquivo serão ignorados.

    18. Na seção de perfil do IAM, selecione um perfil existente do IAM ou crie um novo.

      • Escolha um perfil do IAM existente: selecione essa opção se já tiver um perfil do IAM com permissões para acessar os buckets de entrada e saída do Amazon S3.

      • Criar um novo perfil do IAM: selecione essa opção quando quiser criar um novo perfil do IAM com as permissões adequadas para que o Amazon Comprehend acesse os buckets de entrada e saída.

        nota

        Se os documentos de entrada forem criptografados, o perfil do IAM usado deverá ter permissão para o kms:Decrypt. Para ter mais informações, consulte Permissões necessárias para usar a criptografia KMS.

    19. (Opcional) Para lançar seus recursos no Amazon Comprehend a partir de uma VPC, insira o ID da VPC em VPC ou escolha o ID na lista suspensa.

      1. Escolha a sub-rede em Sub-rede(s). Depois de selecionar a primeira sub-rede, é possível escolher outras adicionais.

      2. Em Grupo(s) de segurança, escolha o grupo de segurança a ser usado se tiver especificado um. Depois de selecionar o primeiro grupo de segurança, é possível escolher outros.

      nota

      Quando você usa uma VPC com sua tarefa personalizada de reconhecimento de entidades, o DataAccessRole usado para as operações Create and Start deve ter permissões para a VPC a partir da qual os documentos de entrada e o bucket de saída são acessados.

    20. (Opcional) Para adicionar uma tag ao reconhecedor de entidade personalizado, insira um par de valores-chave em Tags. Escolha Adicionar Tag. Para remover esse par antes de criar o reconhecedor, escolha Remover tag.

    21. Escolha Treinar.

    O novo reconhecedor aparecerá na lista, mostrando seu status. Ele será exibido primeiro como Submitted. Em seguida, ele será exibido como Training para um classificador que está processando documentos de treinamento, Trained para um classificador pronto para uso e In error para um classificador com erro. Você pode clicar em uma tarefa para obter mais informações sobre o reconhecedor, incluindo mensagens de erro.