Block - Amazon Textract

Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.

Block

EINBlockrepräsentiert Elemente, die in einem Dokument innerhalb einer Gruppe von Pixeln nahe beieinander erkannt werden. Die Informationen, die in einemBlock-Objekt hängt von der Art der Operation ab. Bei der Texterkennung für Dokumente (z.DetectDocumentText) erhalten Sie Informationen über die erkannten Wörter und Textzeilen. In der Textanalyse (zum BeispielAnalyzeDocument) können Sie auch Informationen über die Felder, Tabellen und Auswahlelemente abrufen, die im Dokument erkannt werden.

Ein Array vonBlock-Objekte werden sowohl durch synchrone als auch durch asynchrone Operationen zurückgegeben. Bei synchronen Operationen wieDetectDocumentText, das Array vonBlockobject ist der gesamte Ergebnissatz. Bei asynchronen Operationen wieGetDocumentAnalysiswird das Array über eine oder mehrere Antworten zurückgegeben.

Weitere Informationen finden Sie unterFunktionsweise von Amazon Textractaus.

Inhalt

BlockType

Der Typ des erkannten Textelements. Bei Operationen zur Texterkennung werden die folgenden Typen zurückgegeben:

  • SEITE- Enthält eine Liste der LINEBlockObjekte, die auf einer Dokumentseite erkannt werden.

  • WORT- Ein Wort wurde auf einer Dokumentseite erkannt. Ein Wort besteht aus einem oder mehreren lateinischen ISO-Basiszeichen, die nicht durch Leerzeichen getrennt sind.

  • LINIE- Eine Reihe von tabulatorgetrennten, zusammenhängenden Wörtern, die auf einer Dokumentseite erkannt werden.

In Textanalyseoperationen werden die folgenden Typen zurückgegeben:

  • SEITE- Enthält eine Liste von untergeordnetenBlockObjekte, die auf einer Dokumentseite erkannt werden.

  • KEY_VALUE_SET- Speichert den KEY und VALUEBlock-Objekte für verknüpften Text, der auf einer Dokumentseite erkannt wird. Verwenden derEntityType-Feld, um festzustellen, ob ein KEY_VALUE_SET-Objekt ein KEY istBlockObjekt oder ein VALUEBlock-Objekt.

  • WORT- Ein Wort, das auf einer Dokumentseite erkannt wird. Ein Wort besteht aus einem oder mehreren lateinischen ISO-Basiszeichen, die nicht durch Leerzeichen getrennt sind.

  • LINIE- Eine Reihe von tabulatorgetrennten, zusammenhängenden Wörtern, die auf einer Dokumentseite erkannt werden.

  • TABELLE- Eine Tabelle, die auf einer Dokumentseite erkannt wird. Eine Tabelle ist rasterbasierte Informationen mit zwei oder mehr Zeilen oder Spalten mit einer Zellenspanne von jeweils einer Zeile und einer Spalte.

  • ZELLE- Eine Zelle innerhalb einer erkannten Tabelle. Die Zelle ist das übergeordnete Element des Blocks, der den Text in der Zelle enthält.

  • SELECTION_ELEMENT- Ein Auswahlelement wie ein Optionsfeld (Optionsfeld) oder ein Kontrollkästchen, das auf einer Dokumentseite erkannt wird. Verwenden Sie den Wert vonSelectionStatusum den Status des Selektionselements zu bestimmen.

Type: String (Zeichenfolge)

Zulässige Werte: KEY_VALUE_SET | PAGE | LINE | WORD | TABLE | CELL | SELECTION_ELEMENT

: Erforderlich Nein

ColumnIndex

Die Spalte, in der eine Tabellenzelle angezeigt wird. Die erste Spaltenposition ist 1.ColumnIndexwird nicht zurückgegeben vonDetectDocumentTextundGetDocumentTextDetectionaus.

Type: Ganzzahl

Gültiger Bereich: Der Mindestwert ist.

: Erforderlich Nein

ColumnSpan

Die Anzahl der Spalten, die eine Tabellenzelle umfasst. Derzeit ist dieser Wert immer 1, auch wenn die Anzahl der gespeicherten Spalten größer als 1 ist.ColumnSpanwird nicht zurückgegeben vonDetectDocumentTextundGetDocumentTextDetectionaus.

Type: Ganzzahl

Gültiger Bereich: Der Mindestwert ist.

: Erforderlich Nein

Confidence

Der Konfidenzwert, den Amazon Textract in der Genauigkeit des erkannten Textes und die Genauigkeit der Geometrie aufweist, zeigt um den erkannten Text.

Type: Gleitkommazahl

Gültiger Bereich: Der Mindestwert ist. Maximalwert 100.

: Erforderlich Nein

EntityTypes

Der Typ von Entität. Folgendes kann zurückgegeben werden:

  • SCHLÜSSEL- Eine Kennung für ein Feld im Dokument.

  • WERT- Der Feldtext.

EntityTypeswird nicht zurückgegeben vonDetectDocumentTextundGetDocumentTextDetectionaus.

Type: Zeichenfolgen-Array

Zulässige Werte: KEY | VALUE

: Erforderlich Nein

Geometry

Die Position des erkannten Textes auf dem Bild. Es enthält einen achsorientierten, groben Begrenzungsrahmen, der den Text umgibt, und ein feinkörniges Polygon für genauere räumliche Informationen.

Typ: Geometry Objekt

: Erforderlich Nein

Id

Die Kennung für den erkannten Text. Die Kennung ist nur für eine einzelne Operation eindeutig.

Type: String (Zeichenfolge)

Pattern: .*\S.*

: Erforderlich Nein

Page

Die Seite, auf der ein Block erkannt wurde.Pagewird durch asynchrone Operationen zurückgegeben. Seitenwerte größer als 1 werden nur für mehrseitige Dokumente zurückgegeben, die im PDF- oder TIFF-Format vorliegen. Ein gescanntes Bild (JPEG/PNG), selbst wenn es mehrere Dokumentseiten enthält, gilt als einseitiges Dokument. Der Wert vonPageist immer 1. Synchrone Vorgänge kehren nicht zurückPageweil jedes Eingabedokument als einseitiges Dokument angesehen wird.

Type: Ganzzahl

Gültiger Bereich: Der Mindestwert ist.

: Erforderlich Nein

Relationships

Eine Liste der untergeordneten Blöcke des aktuellen Blocks. Ein LINE-Objekt verfügt beispielsweise über untergeordnete Blöcke für jeden WORD-Block, der Teil der Textzeile ist. Es gibt keine Relationship-Objekte in der Liste für Beziehungen, die nicht existieren, z. B. wenn der aktuelle Block keine untergeordneten Blöcke enthält. Die Listengröße kann wie folgt sein:

  • 0 - Der Block hat keine untergeordneten Blöcke.

  • 1 - Der Block hat untergeordnete Blöcke.

Type: Array vonRelationshipObjekte

: Erforderlich Nein

RowIndex

Die Zeile, in der sich eine Tabellenzelle befindet. Die erste Zeilenposition ist 1.RowIndexwird nicht zurückgegeben vonDetectDocumentTextundGetDocumentTextDetectionaus.

Type: Ganzzahl

Gültiger Bereich: Der Mindestwert ist.

: Erforderlich Nein

RowSpan

Die Anzahl der Zeilen, die eine Tabellenzelle umfasst. Derzeit ist dieser Wert immer 1, auch wenn die Anzahl der überspannten Zeilen größer als 1 ist.RowSpanwird nicht zurückgegeben vonDetectDocumentTextundGetDocumentTextDetectionaus.

Type: Ganzzahl

Gültiger Bereich: Der Mindestwert ist.

: Erforderlich Nein

SelectionStatus

Der Auswahlstatus eines Auswahlelements, z. B. ein Optionsfeld oder ein Kontrollkästchen.

Type: String (Zeichenfolge)

Zulässige Werte: SELECTED | NOT_SELECTED

: Erforderlich Nein

Text

Das Wort oder die Textzeile, die von Amazon Textract erkannt wird.

Type: String (Zeichenfolge)

: Erforderlich Nein

TextType

Die Art von Text, den Amazon Textract erkannt hat. Kann nach handgeschriebenem Text und gedrucktem Text suchen.

Type: String (Zeichenfolge)

Zulässige Werte: HANDWRITING | PRINTED

: Erforderlich Nein

Weitere Informationen finden Sie unter:

Weitere Informationen zur Verwendung dieser API in einem der sprachspezifischen AWS-SDKs finden Sie unter: