Saídas para trabalhos de análise assíncrona - Amazon Comprehend

As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.

Saídas para trabalhos de análise assíncrona

Depois que uma tarefa de análise é concluída, ela armazena os resultados no bucket do S3 que você especificou na solicitação.

Saídas para entradas de texto

Para qualquer formato de documentos de entrada de texto (com várias classes ou com vários rótulos), a saída da tarefa consiste em um único arquivo chamado output.tar.gz. É um arquivo compactado contendo um arquivo de texto com a saída.

Saída multiclasse

Quando você usa um classificador treinado no modo multiclasse, seus resultados exibem as classes. Cada uma dessas classes é a classe usada para criar o conjunto de categorias ao treinar seu classificador.

Para obter mais detalhes sobre esses campos de saída, consulte ClassifyDocumentna Referência do Amazon API Comprehend.

Os exemplos a seguir usam as seguintes classes mutuamente exclusivas.

DOCUMENTARY SCIENCE_FICTION ROMANTIC_COMEDY SERIOUS_DRAMA OTHER

Se o formato dos dados de entrada for um documento por linha, o arquivo de saída conterá uma linha para cada linha na entrada. Cada linha inclui o nome do arquivo, o número da linha com base em zero da linha de entrada e a classe ou classes encontradas no documento. Termina com a confiança que o Amazon Comprehend tem de que a instância individual foi classificada corretamente.

Por exemplo:

{"File": "file1.txt", "Line": "0", "Classes": [{"Name": "Documentary", "Score": 0.8642}, {"Name": "Other", "Score": 0.0381}, {"Name": "Serious_Drama", "Score": 0.0372}]} {"File": "file1.txt", "Line": "1", "Classes": [{"Name": "Science_Fiction", "Score": 0.5}, {"Name": "Science_Fiction", "Score": 0.0381}, {"Name": "Science_Fiction", "Score": 0.0372}]} {"File": "file2.txt", "Line": "2", "Classes": [{"Name": "Documentary", "Score": 0.1}, {"Name": "Documentary", "Score": 0.0381}, {"Name": "Documentary", "Score": 0.0372}]} {"File": "file2.txt", "Line": "3", "Classes": [{"Name": "Serious_Drama", "Score": 0.3141}, {"Name": "Other", "Score": 0.0381}, {"Name": "Other", "Score": 0.0372}]}

Se o formato dos dados de entrada for um documento por arquivo, o arquivo de saída conterá uma linha para cada documento. Cada linha tem o nome do arquivo e a classe ou classes encontradas no documento. Termina com a confiança de que o Amazon Comprehend classificou a instância individual com precisão.

Por exemplo:

{"File": "file0.txt", "Classes": [{"Name": "Documentary", "Score": 0.8642}, {"Name": "Other", "Score": 0.0381}, {"Name": "Serious_Drama", "Score": 0.0372}]} {"File": "file1.txt", "Classes": [{"Name": "Science_Fiction", "Score": 0.5}, {"Name": "Science_Fiction", "Score": 0.0381}, {"Name": "Science_Fiction", "Score": 0.0372}]} {"File": "file2.txt", "Classes": [{"Name": "Documentary", "Score": 0.1}, {"Name": "Documentary", "Score": 0.0381}, {"Name": "Domentary", "Score": 0.0372}]} {"File": "file3.txt", "Classes": [{"Name": "Serious_Drama", "Score": 0.3141}, {"Name": "Other", "Score": 0.0381}, {"Name": "Other", "Score": 0.0372}]}

Saída multirrótulo

Quando você usa um classificador treinado no modo multirrótulo, seus resultados exibem os labels. Cada um desses labels é o rótulo usado para criar o conjunto de categorias ao treinar seu classificador.

Os exemplos a seguir usam esses rótulos exclusivos.

SCIENCE_FICTION ACTION DRAMA COMEDY ROMANCE

Se o formato dos dados de entrada for um documento por linha, o arquivo de saída conterá uma linha para cada linha na entrada. Cada linha inclui o nome do arquivo, o número da linha com base em zero da linha de entrada e a classe ou classes encontradas no documento. Termina com a confiança que o Amazon Comprehend tem de que a instância individual foi classificada corretamente.

Por exemplo:

{"File": "file1.txt", "Line": "0", "Labels": [{"Name": "Action", "Score": 0.8642}, {"Name": "Drama", "Score": 0.650}, {"Name": "Science Fiction", "Score": 0.0372}]} {"File": "file1.txt", "Line": "1", "Labels": [{"Name": "Comedy", "Score": 0.5}, {"Name": "Action", "Score": 0.0381}, {"Name": "Drama", "Score": 0.0372}]} {"File": "file1.txt", "Line": "2", "Labels": [{"Name": "Action", "Score": 0.9934}, {"Name": "Drama", "Score": 0.0381}, {"Name": "Action", "Score": 0.0372}]} {"File": "file1.txt", "Line": "3", "Labels": [{"Name": "Romance", "Score": 0.9845}, {"Name": "Comedy", "Score": 0.8756}, {"Name": "Drama", "Score": 0.7723}, {"Name": "Science_Fiction", "Score": 0.6157}]}

Se o formato dos dados de entrada for um documento por arquivo, o arquivo de saída conterá uma linha para cada documento. Cada linha tem o nome do arquivo e a classe ou classes encontradas no documento. Termina com a confiança de que o Amazon Comprehend classificou a instância individual com precisão.

Por exemplo:

{"File": "file0.txt", "Labels": [{"Name": "Action", "Score": 0.8642}, {"Name": "Drama", "Score": 0.650}, {"Name": "Science Fiction", "Score": 0.0372}]} {"File": "file1.txt", "Labels": [{"Name": "Comedy", "Score": 0.5}, {"Name": "Action", "Score": 0.0381}, {"Name": "Drama", "Score": 0.0372}]} {"File": "file2.txt", "Labels": [{"Name": "Action", "Score": 0.9934}, {"Name": "Drama", "Score": 0.0381}, {"Name": "Action", "Score": 0.0372}]} {"File": "file3.txt”, "Labels": [{"Name": "Romance", "Score": 0.9845}, {"Name": "Comedy", "Score": 0.8756}, {"Name": "Drama", "Score": 0.7723}, {"Name": "Science_Fiction", "Score": 0.6157}]}

Saídas para documentos de entrada semiestruturados

Para documentos de entrada semiestruturados, a saída pode incluir os seguintes campos adicionais:

  • DocumentMetadata — Extração de informações sobre o documento. Os metadados incluem uma lista de páginas no documento, com o número de caracteres extraídos de cada página. Esse campo estará presente na resposta se a solicitação incluir o parâmetro Byte.

  • DocumentType — O tipo de documento para cada página no documento de entrada. Esse campo estará presente na resposta se a solicitação incluir o parâmetro Byte.

  • Erros: erros no nível da página que o sistema detectou ao processar o documento de entrada. O campo estará vazio se o sistema não encontrar erros.

Para obter mais detalhes sobre esses campos de saída, consulte ClassifyDocumentna Referência do Amazon API Comprehend.

O exemplo a seguir mostra a saída de um arquivo digitalizado PDF de duas páginas.

[{ #First page output "Classes": [ { "Name": "__label__2 ", "Score": 0.9993996620178223 }, { "Name": "__label__3 ", "Score": 0.0004330444789957255 } ], "DocumentMetadata": { "PageNumber": 1, "Pages": 2 }, "DocumentType": "ScannedPDF", "File": "file.pdf", "Version": "VERSION_NUMBER" }, #Second page output { "Classes": [ { "Name": "__label__2 ", "Score": 0.9993996620178223 }, { "Name": "__label__3 ", "Score": 0.0004330444789957255 } ], "DocumentMetadata": { "PageNumber": 2, "Pages": 2 }, "DocumentType": "ScannedPDF", "File": "file.pdf", "Version": "VERSION_NUMBER" }]