Modo multirrótulo - Amazon Comprehend

As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.

Modo multirrótulo

No modo multirrótulo, as classes individuais representam categorias diferentes que não são mutuamente exclusivas. A classificação multirrótulo atribui uma ou mais classes a cada documento. Por exemplo, você pode classificar um filme como documentário e outro filme como ficção científica, ação e comédia.

Para treinamento, o modo multirrótulo suporta até 1 milhão de exemplos contendo até 100 classes exclusivas.

Modelos de texto sem formatação

Para treinar um modelo de texto simples, você pode fornecer dados de treinamento rotulados como um arquivo CSV ou como um arquivo de manifesto aumentado da Ground Truth. SageMaker

Arquivo CSV

Para informações gerais sobre como usar arquivos CSV para classificadores de treinamento, consulte Arquivos CSV.

Forneça os dados de treinamento como um arquivo CSV de duas colunas. Para cada linha, a primeira coluna contém os valores do rótulo da classe e a segunda coluna contém um exemplo de documento de texto para essas classes. Para inserir mais de uma classe na primeira coluna, use um delimitador (como |) entre cada classe.

CLASS,Text of document 1 CLASS,Text of document 2 CLASS|CLASS|CLASS,Text of document 3

O exemplo a seguir mostra uma linha de um arquivo CSV que treina um classificador personalizado para detectar gêneros em resumos de filmes:

COMEDY|MYSTERY|SCIENCE_FICTION|TEEN,"A band of misfit teens become unlikely detectives when they discover troubling clues about their high school English teacher. Could the strange Mrs. Doe be an alien from outer space?"

O delimitador padrão entre os nomes das classes é uma barra vertical, também chamada de pipe (|). No entanto, é possível usar um caractere diferente como um delimitador. O delimitador deve ser diferente de todos os caracteres nos nomes de suas classes. Por exemplo, se suas classes são CLASSE_1, CLASSE_2 e CLASSE_3, o sublinhado (_) faz parte do nome da classe. Portanto, não use um sublinhado como delimitador para separar os nomes das classes.

Arquivo de manifesto aumentado

Para informações gerais sobre o uso de arquivos de manifesto aumentados para treinar classificadores, consulte Arquivo de manifesto aumentado.

Para documentos de texto sem formatação, cada linha do arquivo de manifesto aumentado é um objeto JSON completo. Ele contém um documento de treinamento, nomes de classes e outros metadados do Ground Truth. O exemplo a seguir é um arquivo de manifesto aumentado para treinar um classificador personalizado a fim de detectar gêneros em resumos de filmes:

{"source":"Document 1 text", "MultiLabelJob":[0,4], "MultiLabelJob-metadata":{"job-name":"labeling-job/multilabeljob", "class-map":{"0":"action", "4":"drama"}, "human-annotated":"yes", "creation-date":"2020-05-21T19:02:21.521882", "confidence-map":{"0":0.66}, "type":"groundtruth/text-classification-multilabel"}} {"source":"Document 2 text", "MultiLabelJob":[3,6], "MultiLabelJob-metadata":{"job-name":"labeling-job/multilabeljob", "class-map":{"3":"comedy", "6":"horror"}, "human-annotated":"yes", "creation-date":"2020-05-21T19:00:01.291202", "confidence-map":{"1":0.61,"0":0.61}, "type":"groundtruth/text-classification-multilabel"}} {"source":"Document 3 text", "MultiLabelJob":[1], "MultiLabelJob-metadata":{"job-name":"labeling-job/multilabeljob", "class-map":{"1":"action"}, "human-annotated":"yes", "creation-date":"2020-05-21T18:58:51.662050", "confidence-map":{"1":0.68}, "type":"groundtruth/text-classification-multilabel"}}

O exemplo a seguir mostra um objeto JSON do arquivo de manifesto aumentado, formatado para facilitar a leitura:

{ "source": "A band of misfit teens become unlikely detectives when they discover troubling clues about their high school English teacher. Could the strange Mrs. Doe be an alien from outer space?", "MultiLabelJob": [ 3, 8, 10, 11 ], "MultiLabelJob-metadata": { "job-name": "labeling-job/multilabeljob", "class-map": { "3": "comedy", "8": "mystery", "10": "science_fiction", "11": "teen" }, "human-annotated": "yes", "creation-date": "2020-05-21T19:00:01.291202", "confidence-map": { "3": 0.95, "8": 0.77, "10": 0.83, "11": 0.92 }, "type": "groundtruth/text-classification-multilabel" } }

Neste exemplo, o atributo source fornece o texto do documento de treinamento e o atributo MultiLabelJob atribui os índices de várias classes de uma lista de classificação. O nome da tarefa nos metadados do MultiLabelJob é o nome que você definiu para a tarefa de rotulagem no Ground Truth.

Modelos de documento originais

Um modelo de documento nativo é um modelo que você treina com documentos nativos (como PDF, DOCX e arquivos de imagem). Você fornece dados de treinamento rotulados como um arquivo CSV.

Arquivo CSV

Para informações gerais sobre como usar arquivos CSV para classificadores de treinamento, consulte Arquivos CSV.

Forneça os dados de treinamento como um arquivo CSV de três colunas. Para cada linha, a primeira coluna contém os valores do rótulo da classe. A segunda coluna contém o nome do arquivo de um documento de exemplo para essas classes. A terceira coluna contém o número da página. O número da página é opcional se o documento de exemplo for uma imagem.

Para inserir mais de uma classe na primeira coluna, use um delimitador (como |) entre cada classe.

CLASS,input-doc-1.pdf,3 CLASS,input-doc-2.docx,1 CLASS|CLASS|CLASS,input-doc-3.png,2

O exemplo a seguir mostra uma linha de um arquivo CSV que treina um classificador personalizado para detectar gêneros em resumos de filmes. A página 2 do arquivo PDF contém o exemplo de um filme de comédia/adolescente.

COMEDY|TEEN,movie-summary-1.pdf,2

O delimitador padrão entre os nomes das classes é uma barra vertical, também chamada de pipe (|). No entanto, é possível usar um caractere diferente como um delimitador. O delimitador deve ser diferente de todos os caracteres nos nomes de suas classes. Por exemplo, se suas classes são CLASSE_1, CLASSE_2 e CLASSE_3, o sublinhado (_) faz parte do nome da classe. Portanto, não use um sublinhado como delimitador para separar os nomes das classes.