Modelos de classificação de treinamento - Amazon Comprehend

As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.

Modelos de classificação de treinamento

Para treinar um modelo para classificação personalizada, você define as categorias e fornece documentos de exemplo para treinar o modelo personalizado. Você treina o modelo no modo multiclasse ou multirrótulo. O modo multiclasse associa uma única classe a cada documento. O modo multirrótulos associa uma ou mais classes a cada documento.

A classificação personalizada é compatível com dois tipos de modelos de classificadores: modelos de texto sem formatação e modelos de documentos nativos. Um modelo de texto sem formatação classifica documentos com base em seu conteúdo de texto. Um modelo de documento nativo também classifica documentos com base no conteúdo do texto. Um modelo de documento nativo também pode usar sinais adicionais, como do layout do documento. Você treina um modelo de documento nativo com documentos nativos para que o modelo aprenda as informações do layout.

Os modelos de texto sem formatação têm as seguintes características:

  • Você treina o modelo usando documentos de texto codificados em UTF-8.

  • Você pode treinar o modelo usando documentos em um dos seguintes idiomas: inglês, espanhol, alemão, italiano, francês ou português.

  • Todos os documentos de treinamento de um determinado classificador devem usar o mesmo idioma.

  • Os documentos de treinamento são em texto sem formatação, portanto, não há custos adicionais pela extração de texto.

Os modelos de documentos nativos têm as seguintes características:

  • Você treina o modelo usando documentos semiestruturados, que incluem os seguintes tipos de documentos:

    • Documentos PDF digitais e digitalizados.

    • Documentos do Word (DOCX).

    • Imagens: arquivos JPG, arquivos PNG e arquivos TIFF de página única.

    • Arquivos de saída JSON da API Textract.

  • Você treina o modelo usando documentos em inglês.

  • Documentos de treinamento incluindo arquivos de documentos digitalizados implicam em cobranças adicionais pela extração de texto. Consulte a página de Valores do Amazon Comprehend para detalhes.

Você pode classificar qualquer um dos tipos de documentos compatíveis usando qualquer tipo de modelo. No entanto, para obter resultados mais precisos, recomendamos o uso de um modelo de texto sem formatação para classificar documentos de texto sem formatação e um modelo de documento nativo para classificar documentos semiestruturados.