Granularité de la réponse Réglages de sortie Format du texte Boîtes de délimitation et champs génératifs Réponse au document Bedrock Data Automation Métadonnées de format de fichier supplémentaires (JSON)

Documents

La sortie standard pour les documents vous permet de définir la granularité de la réponse qui vous intéresse ainsi que d'établir le format de sortie et le format du texte dans la sortie. Vous trouverez ci-dessous certaines des sorties que vous pouvez activer.

Note

BDA peut traiter des fichiers DOCX. Pour traiter les fichiers DOCX, ils sont convertis en. PDFs Cela signifie que le mappage des numéros de page ne fonctionnera pas pour les fichiers DOCX. Les images des fichiers convertis PDFs seront téléchargées dans votre compartiment de sortie si l'option JSON+ et la granularité de la page sont sélectionnées.

Granularité de la réponse

La granularité des réponses détermine le type de réponse que vous souhaitez recevoir lors de l'extraction du texte du document. Chaque niveau de granularité vous donne de plus en plus de réponses séparées, la page fournissant tout le texte extrait ensemble, et le mot fournissant chaque mot sous forme de réponse séparée. Les niveaux de granularité disponibles sont les suivants :

Granularité au niveau de la page : cette option est activée par défaut. La granularité au niveau de la page fournit à chaque page du document le format de sortie de texte de votre choix. Si vous traitez un PDF, l'activation de ce niveau de granularité permet de détecter et de renvoyer les hyperliens intégrés.
Granularité au niveau de l'élément (mise en page) : cette option est activée par défaut. Fournit le texte du document dans le format de sortie de votre choix, séparé en différents éléments. Ces éléments, tels que des figures, des tableaux ou des paragraphes. Ils sont renvoyés dans un ordre de lecture logique basé sur la structure du document. Si vous traitez un PDF, l'activation de ce niveau de granularité permet de détecter et de renvoyer les hyperliens intégrés.
Granularité au niveau des mots : fournit des informations sur des mots individuels sans recourir à une analyse contextuelle plus large. Indique chaque mot et son emplacement sur la page.

Réglages de sortie

Les paramètres de sortie déterminent la manière dont les résultats téléchargés seront structurés. Ce paramètre est exclusif à la console. Les options pour les paramètres de sortie sont les suivantes :

JSON — Structure de sortie par défaut pour l'analyse des documents. Fournit un fichier de sortie JSON contenant les informations de vos paramètres de configuration.
JSON+Files — L'utilisation de ce paramètre génère à la fois une sortie JSON et des fichiers correspondant à différentes sorties. Par exemple, ce paramètre fournit un fichier texte pour l'extraction globale du texte, un fichier de marquage pour le texte avec marquage structurel et des fichiers CSV pour chaque tableau présent dans le texte. Les figures situées à l'intérieur d'un document seront enregistrées ainsi que les figures recadrées et les images rectifiées. De plus, si vous traitez un fichier DOCX et que cette option est sélectionnée, le PDF converti de votre fichier DOCX se trouvera dans le dossier de sortie. Ces sorties se trouvent standard_output/logical_doc_id/assets/ dans votre dossier de sortie.

Format du texte

Le format du texte détermine les différents types de textes qui seront fournis par le biais de différentes opérations d'extraction. Vous pouvez sélectionner l'une des options suivantes pour votre format de texte.

Texte en clair — Ce paramètre fournit une sortie en texte uniquement sans qu'aucun élément de formatage ou autre élément de marquage ne soit noté.
Texte avec annotations : paramètre de sortie par défaut pour la sortie standard. Fournit du texte avec des éléments de balisage intégrés.
Texte avec HTML — Fournit du texte avec des éléments HTML intégrés dans la réponse.
CSV — Fournit une sortie structurée CSV pour les tableaux du document. Cela ne donnera une réponse que pour les tableaux, et non pour les autres éléments du document.

Boîtes de délimitation et champs génératifs

Pour les documents, il existe deux options de réponse qui modifient leur sortie en fonction de la granularité sélectionnée. Ce sont les boîtes de délimitation et les champs génératifs. La sélection de boîtes de délimitation fournira un aperçu visuel de l'élément ou du mot sur lequel vous cliquez dans le menu déroulant des réponses de la console. Cela vous permet de retrouver plus facilement certains éléments de votre réponse. Les boîtes de délimitation sont renvoyées dans votre JSON sous forme de coordonnées des quatre coins de la boîte.

Lorsque vous sélectionnez Generative Fields, un résumé du document est généré, à la fois dans une version de 10 mots et dans une version de 250 mots. Ensuite, si vous sélectionnez des éléments sous forme de granularité de réponse, vous générez une légende descriptive de chaque figure détectée dans le document. Les chiffres incluent des éléments tels que des tableaux, des graphiques et des images.

Réponse au document Bedrock Data Automation

Cette section se concentre sur les différents objets de réponse que vous recevez lors de l'exécution de l'opération d'API InvokeDataAutomation sur un fichier de document. Ci-dessous, nous allons décomposer chaque section de l'objet de réponse, puis voir une réponse complète et remplie pour un exemple de document. La première section que nous recevrons estmetadata.


"metadata":{
   "logical_subdocument_id":"XXXX-XXXX-XXXX-XXXX",
   "semantic_modality":"DOCUMENT",
   "s3_bucket":"bucket",
   "s3_prefix":"prefix"
},

La première section ci-dessus fournit une vue d'ensemble des métadonnées associées au document. Outre les informations S3, cette section vous indique également quelle modalité a été sélectionnée pour votre réponse.


"document":{
   "representation":{
      "text":"document text",
      "html":"document title document content",
      "markdown":"# text"
   },
   "description":"document text",
   "summary":"summary text",
   "statistics":{
      "element_count":5,
      "table_count":1,
      "figure_count":1,
      "word_count":1000,
      "line_count":32
   }
},

La section ci-dessus fournit des informations sur la granularité au niveau du document. Les sections de description et de résumé sont les champs générés en fonction du document. La section de représentation fournit le contenu réel du document avec différents styles de formatage. Enfin, les statistiques contiennent des informations sur le contenu réel du document, telles que le nombre d'éléments sémantiques, le nombre de chiffres, de mots, de lignes, etc.

Il s'agit des informations relatives à une entité de table. Outre les informations de localisation, les différents formats du texte, des tableaux et de l'ordre de lecture, ils renvoient spécifiquement des informations CSV et des images recadrées du tableau dans des compartiments S3. Les informations CSV indiquent les différents en-têtes, pieds de page et titres. Les images seront acheminées vers le compartiment s3 du préfixe défini dans la demande InvokeDataAutomationAsync

Lorsque vous traitez un PDF, la section des statistiques de la réponse contient également hyperlinks_count des informations sur le nombre d'hyperliens présents dans votre document.



{
   "id":"entity_id",
   "type":"TEXT",
   "representation":{
      "text":"document text",
      "html":"document title document content",
      "markdown":"# text"
   },
   "reading_order":2,
   "page_indices":[
      0
   ],
   "locations":[
      {
         "page_index":0,
         "bounding_box":{
            "left":0.0,
            "top":0.0,
            "width":0.05,
            "height":0.5
         }
      }
   ],
   "sub_type":"TITLE/SECTION_TITLE/HEADER/FOOTER/PARAGRAPH/LIST/PAGE_NUMBER"
},

Il s'agit de l'entité utilisée pour le texte d'un document, indiquée par la TYPE ligne dans la réponse. Encore une fois, la représentation montre le texte dans différents formats. reading_orderindique à quel moment un lecteur verrait logiquement le texte. Il s'agit d'un ordre sémantique basé sur les clés et les valeurs associées. Par exemple, il associe les titres des paragraphes à leur paragraphe respectif dans l'ordre de lecture. page_indicesvous indique sur quelles pages se trouve le texte. Viennent ensuite les informations de localisation, avec un cadre de texte fourni si elles ont été activées en réponse. Enfin, nous avons le sous-type d'entité. Ce sous-type fournit des informations plus détaillées sur le type de texte détecté. Pour obtenir la liste complète des sous-types, consultez la référence d'API.



{
   "id":"entity_id",
   "type":"TABLE",
   "representation":{
      "html":"table.../table",
      "markdown":"| header | ...",
      "text":"header \t header",
      "csv":"header, header, header\n..."
   },
   "csv_s3_uri":"s3://",
   "headers":[
      "date",
      "amount",
      "description",
      "total"
   ],
   "reading_order":3,
   "title":"Title of the table",
   "footers":[
      "the footers of the table"
   ],
   "crop_images":[
      "s3://bucket/prefix.png",
      "s3://bucket/prefix.png"
   ],
   "page_indices":[
      0,
      1
   ],
   "locations":[
      {
         "page_index":0,
         "bounding_box":{
            "left":0,
            "top":0,
            "width":1,
            "height":1
         }
      },
      {
         "page_index":1,
         "bounding_box":{
            "left":0,
            "top":0,
            "width":1,
            "height":1
         }
      }
   ]
},


{

   "id":"entity_id",

   "type":"FIGURE",

   "summary":"",

   "representation":{

      "text":"document text",

      "html":"document title document content",

      "markdown":"# text"

   },

   "crop_images":[

      "s3://bucket/prefix.png",

      "s3://bucket/prefix.png"

   ],

   "locations":[

      {

         "page_index":0,

         "bounding_box":{

            "left":0,

            "top":0,

            "width":1,

            "height":1

         }

      }

   ],

   "sub_type":"CHART",

   "title":"figure title",

   "rai_flag":"APPROVED/REDACTED/REJECTED",

   "reading_order":1,

   "page_indices":[

      0

   ]

}
,

Il s'agit de l'entité utilisée pour les chiffres tels que les graphiques et les diagrammes de documents. Comme dans les tableaux, ces figures seront recadrées et les images envoyées au compartiment s3 défini dans votre préfixe. De plus, vous recevrez une réponse sub_type et un titre de figure pour le texte du titre et une indication du type de figure dont il s'agit.


"pages":[
   {
      "id":"page_id",
      "page_index":0,
      "detected_page_number":1,
      "representation":{
         "text":"document text",
         "html":"document title document content",
         "markdown":"# text"
      },
      "statistics":{
         "element_count":5,
         "table_count":1,
         "figure_count":1,
         "word_count":1000,
         "line_count":32
      },
      "asset_metadata":{
         "rectified_image":"s3://bucket/prefix.png",
         "rectified_image_width_pixels":1700,
         "rectified_image_height_pixels":2200
      }
   }
],

La dernière des entités que nous extrayons par le biais de la sortie standard est Pages. Les pages sont identiques aux entités de texte, mais elles contiennent également des numéros de page, pour lesquels le numéro de page détecté se trouve sur la page.


"text_lines":[
   {
      "id":"line_id",
      "text":"line text",
      "reading_order":1,
      "page_index":0,
      "locations":{
         "page_index":0,
         "bounding_box":{
            "left":0,
            "top":0,
            "width":1,
            "height":1
         }
      }
   }
],


"text_words":[
   {
      "id":"word_id",
      "text":"word text",
      "line_id":"line_id",
      "reading_order":1,
      "page_index":0,
      "locations":{
         "page_index":0,
         "bounding_box":{
            "left":0,
            "top":0,
            "width":1,
            "height":1
         }
      }
   }
]

Ces deux derniers éléments concernent des parties de texte individuelles. La granularité au niveau des mots renvoie une réponse pour chaque mot, tandis que la sortie par défaut indique uniquement des lignes de texte.

Métadonnées de format de fichier supplémentaires (JSON)

Lorsque vous recevez vos fichiers supplémentaires à l'aide de l'indicateur de formats de fichiers supplémentaires, vous obtenez un fichier JSON pour toutes les images rectifiées extraites. BDA rectifie les images pivotées en utilisant une homographie pour faire pivoter l'image à un angle de 90 degrés. Voici un exemple du JSON :



        "asset_metadata": {
            "rectified_image": "s3://bucket/prefix.png",
            "rectified_image_width_pixels": 1700,
            "rectified_image_height_pixels": 2200,
            "corners": [
                [
                    0.006980135689736235,
                    -0.061692718505859376
                ],
                [
                    1.10847711439684,
                    0.00673927116394043
                ],
                [
                    0.994479346419327,
                    1.050548828125
                ],
                [
                    -0.11249661383904497,
                    0.9942819010416667
                ]
            ]
        }

Les coins représentent les coins détectés d'une image, utilisés pour former une homographie du document. Cette homographie permet de faire pivoter l'image tout en conservant ses autres propriétés.

Avertissement JavaScript est désactivé ou n'est pas disponible dans votre navigateur.

Pour que vous puissiez utiliser la documentation AWS, Javascript doit être activé. Vous trouverez des instructions sur les pages d'aide de votre navigateur.

Conventions de rédaction

Sortie standard dans Bedrock Data Automation

Images