Saídas para análise em tempo real - Amazon Comprehend

As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.

Saídas para análise em tempo real

Saídas para entradas de texto

Se você inserir texto usando o parâmetro Text, a saída consistirá em uma matriz de entidades que a análise detectou. O exemplo a seguir mostra uma análise que detectou duas entidades do JUDGE.

{ "Entities": [ { "BeginOffset": 0, "EndOffset": 22, "Score": 0.9763959646224976, "Text": "John Johnson", "Type": "JUDGE" }, { "BeginOffset": 11, "EndOffset": 15, "Score": 0.9615424871444702, "Text": "Thomas Kincaid", "Type": "JUDGE" } ] }

Saídas para entradas semiestruturadas

Para um documento de entrada semiestruturado ou um arquivo de texto, a saída pode incluir os seguintes campos adicionais:

  • DocumentMetadata — Extração de informações sobre o documento. Os metadados incluem uma lista de páginas no documento, com o número de caracteres extraídos de cada página. Esse campo estará presente na resposta se a solicitação incluir o parâmetro Byte.

  • DocumentType — O tipo de documento para cada página no documento de entrada. Esse campo estará presente na resposta de uma solicitação que incluiu o parâmetro Byte.

  • Blocks: informações sobre cada bloco de texto no documento de entrada. Os blocos estão aninhados. Um bloco de página contém um bloco para cada linha de texto, que contém um bloco para cada palavra. Esse campo estará presente na resposta de uma solicitação que incluiu o parâmetro Byte.

  • BlockReferences — Uma referência a cada bloco dessa entidade. Esse campo estará presente na resposta de uma solicitação que incluiu o parâmetro Byte. O campo não está presente para arquivos de texto.

  • Erros: erros no nível da página que o sistema detectou ao processar o documento de entrada. O campo estará vazio se o sistema não encontrar erros.

Para obter descrições desses campos de saída, consulte DetectEntitiesna Referência da API Amazon Comprehend. Para obter mais informações sobre os elementos do layout, consulte Objetos de análise do Amazon Textract no Guida do desenvolvedor do Amazon Textract.

O exemplo a seguir mostra a saída para um documento de entrada de uma página em PDF digitalizado.

{ "Entities": [{ "Score": 0.9984670877456665, "Type": "DATE-TIME", "Text": "September 4,", "BlockReferences": [{ "BlockId": "42dcaaee-c484-4b5d-9e3f-ae0be928b3e1", "BeginOffset": 0, "EndOffset": 12, "ChildBlocks": [{ "ChildBlockId": "6e9cbb43-f8be-4da0-9a4b-ff9a6c350a14", "BeginOffset": 0, "EndOffset": 9 }, { "ChildBlockId": "599e0d53-ae9f-491b-a762-459b22c79ff5", "BeginOffset": 0, "EndOffset": 2 }, { "ChildBlockId": "599e0d53-ae9f-491b-a762-459b22c79ff5", "BeginOffset": 0, "EndOffset": 2 } ] }] }], "DocumentMetadata": { "Pages": 1, "ExtractedCharacters": [{ "Page": 1, "Count": 609 }] }, "DocumentType": [{ "Page": 1, "Type": "SCANNED_PDF" }], "Blocks": [{ "Id": "ee82edf3-28de-4d63-8883-40e2e4938ccb", "BlockType": "LINE", "Text": "Your Band", "Page": 1, "Geometry": { "BoundingBox": { "Height": 0.024125460535287857, "Left": 0.11745482683181763, "Top": 0.06821706146001816, "Width": 0.12074867635965347 }, "Polygon": [{ "X": 0.11745482683181763, "Y": 0.06821706146001816 }, { "X": 0.2382034957408905, "Y": 0.06821706146001816 }, { "X": 0.2382034957408905, "Y": 0.09234252572059631 }, { "X": 0.11745482683181763, "Y": 0.09234252572059631 } ] }, "Relationships": [{ "Ids": [ "b105c561-c8d9-485a-a728-7a5b1a308935", "60ecb119-3173-4de2-8c5d-de182a5f86a5" ], "Type": "CHILD" }] }] }

O exemplo a seguir mostra o resultado da análise de um documento em PDF nativo.

exemplo Exemplo de resultado de uma análise de reconhecimento personalizado de entidade de um documento em PDF
{ "Blocks": [ { "BlockType": "LINE", "Geometry": { "BoundingBox": { "Height": 0.012575757575757575, "Left": 0.0, "Top": 0.0015063131313131314, "Width": 0.02262091503267974 }, "Polygon": [ { "X": 0.0, "Y": 0.0015063131313131314 }, { "X": 0.02262091503267974, "Y": 0.0015063131313131314 }, { "X": 0.02262091503267974, "Y": 0.014082070707070706 }, { "X": 0.0, "Y": 0.014082070707070706 } ] }, "Id": "4330efed-6334-4fc4-ba48-e050afa95c8d", "Page": 1, "Relationships": [ { "ids": [ "f343ce48-583d-4abe-b84b-a232e266450f" ], "type": "CHILD" } ], "Text": "S-3" }, { "BlockType": "WORD", "Geometry": { "BoundingBox": { "Height": 0.012575757575757575, "Left": 0.0, "Top": 0.0015063131313131314, "Width": 0.02262091503267974 }, "Polygon": [ { "X": 0.0, "Y": 0.0015063131313131314 }, { "X": 0.02262091503267974, "Y": 0.0015063131313131314 }, { "X": 0.02262091503267974, "Y": 0.014082070707070706 }, { "X": 0.0, "Y": 0.014082070707070706 } ] }, "Id": "f343ce48-583d-4abe-b84b-a232e266450f", "Page": 1, "Relationships": [], "Text": "S-3" } ], "DocumentMetadata": { "PageNumber": 1, "Pages": 1 }, "DocumentType": "NativePDF", "Entities": [ { "BlockReferences": [ { "BeginOffset": 25, "BlockId": "4330efed-6334-4fc4-ba48-e050afa95c8d", "ChildBlocks": [ { "BeginOffset": 1, "ChildBlockId": "cbba5534-ac69-4bc4-beef-306c659f70a6", "EndOffset": 6 } ], "EndOffset": 30 } ], "Score": 0.9998825926329088, "Text": "0.001", "Type": "OFFERING_PRICE" }, { "BlockReferences": [ { "BeginOffset": 41, "BlockId": "f343ce48-583d-4abe-b84b-a232e266450f", "ChildBlocks": [ { "BeginOffset": 0, "ChildBlockId": "292a2e26-21f0-401b-a2bf-03aa4c47f787", "EndOffset": 9 } ], "EndOffset": 50 } ], "Score": 0.9809727537330395, "Text": "6,097,560", "Type": "OFFERED_SHARES" } ], "File": "example.pdf", "Version": "2021-04-30" }