Block - Amazon Textract

Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.

Block

SEBUAHBlockmewakili item yang diakui dalam dokumen dalam kelompok piksel dekat satu sama lain. Informasi yang dikembalikan dalamBlocktergantung pada jenis operasi. Dalam deteksi teks untuk dokumen (misalnyaDetectDocumentText), Anda mendapatkan informasi tentang kata-kata dan baris teks yang terdeteksi. Dalam analisis teks (misalnyaAnalyzeDocument), Anda juga bisa mendapatkan informasi tentang bidang, tabel, dan elemen seleksi yang terdeteksi dalam dokumen.

Susunan rangkaianBlockobjek dikembalikan oleh kedua operasi sinkron dan asinkron. Dalam operasi sinkron, sepertiDetectDocumentText, larikBlockobjek adalah seluruh rangkaian hasil. Dalam operasi asinkron, sepertiGetDocumentAnalysis, array dikembalikan lebih dari satu atau lebih tanggapan.

Untuk informasi selengkapnya, lihatCara Amazon Textract.

Isi

BlockType

tipe item teks yang dikenali. Dalam operasi untuk deteksi teks, jenis berikut dikembalikan:

  • HALAMAN- Berisi daftar LINEBlockobjek yang terdeteksi pada halaman dokumen.

  • KATA- Sebuah kata terdeteksi pada halaman dokumen. Sebuah kata adalah satu atau lebih karakter skrip Latin dasar ISO yang tidak dipisahkan oleh spasi.

  • LINI- Sebuah string dari tab-delimited, kata-kata bersebelahan yang terdeteksi pada halaman dokumen.

Dalam operasi analisis teks, jenis berikut dikembalikan:

  • HALAMAN- Berisi daftar anakBlockobjek yang terdeteksi pada halaman dokumen.

  • KEY_VALUE_SET- Menyimpan KUNCI dan NILAIBlockobjek untuk teks terkait yang terdeteksi pada halaman dokumen. GunakanEntityTypebidang untuk menentukan apakah objek KEY_VALUE_SET adalah KEYBlockobjek atau NILAIBlockobjek.

  • KATA- Sebuah kata yang terdeteksi pada halaman dokumen. Sebuah kata adalah satu atau lebih karakter skrip Latin dasar ISO yang tidak dipisahkan oleh spasi.

  • LINI- Sebuah string dari tab-delimited, kata-kata bersebelahan yang terdeteksi pada halaman dokumen.

  • MEJA- Sebuah tabel yang terdeteksi pada halaman dokumen. Sebuah tabel adalah informasi berbasis grid dengan dua atau lebih baris atau kolom, dengan rentang sel satu baris dan satu kolom masing-masing.

  • SEL- Sebuah sel dalam tabel terdeteksi. Sel adalah induk dari blok yang berisi teks dalam sel.

  • SELECTION_ELEMENT- Elemen seleksi seperti tombol opsi (tombol radio) atau kotak centang yang terdeteksi pada halaman dokumen. Gunakan nilaiSelectionStatusuntuk menentukan status elemen seleksi.

Jenis: Rangkaian

Nilai Valid: KEY_VALUE_SET | PAGE | LINE | WORD | TABLE | CELL | SELECTION_ELEMENT

Diperlukan: Tidak

ColumnIndex

Kolom di mana sel tabel muncul. Posisi kolom pertama adalah 1.ColumnIndextidak dikembalikan olehDetectDocumentTextdanGetDocumentTextDetection.

Jenis: Bulat

Rentang yang Valid: Nilai minimum 0.

Diperlukan: Tidak

ColumnSpan

Jumlah kolom yang rentang sel tabel. Saat ini nilai ini selalu 1, bahkan jika jumlah kolom membentang lebih besar dari 1.ColumnSpantidak dikembalikan olehDetectDocumentTextdanGetDocumentTextDetection.

Jenis: Bulat

Rentang yang Valid: Nilai minimum 0.

Diperlukan: Tidak

Confidence

Skor kepercayaan yang dimiliki Amazon Textract dalam keakuratan teks yang dikenali dan keakuratan titik geometri di sekitar teks yang dikenali.

Jenis: Apung

Rentang yang Valid: Nilai minimum 0. Nilai maksimum 100.

Diperlukan: Tidak

EntityTypes

Jenis entitas. Berikut ini dapat dikembalikan:

  • KUNCI- Sebuah pengenal untuk bidang pada dokumen.

  • NILAI- Teks bidang.

EntityTypestidak dikembalikan olehDetectDocumentTextdanGetDocumentTextDetection.

Jenis: Array string

Nilai Valid: KEY | VALUE

Diperlukan: Tidak

Geometry

Lokasi teks yang dikenali pada gambar. Ini termasuk kotak batas yang sejajar dengan sumbu yang mengelilingi teks, dan poligon untuk informasi spasial yang lebih akurat.

Tipe: Objek Geometry

Diperlukan: Tidak

Id

Pengidentifikasi untuk teks yang dikenali. Pengidentifikasi hanya unik untuk satu operasi.

Jenis: String

Pola: .*\S.*

Diperlukan: Tidak

Page

Halaman di mana blok terdeteksi.Pagedikembalikan oleh operasi asinkron. Nilai halaman yang lebih besar dari 1 hanya dikembalikan untuk dokumen multipage yang dalam format PDF atau TIFF. Gambar yang dipindai (JPEG/PNG), bahkan jika berisi beberapa halaman dokumen, dianggap sebagai dokumen satu halaman. Nilai dariPageselalu 1. Operasi sinkron tidak kembaliPagekarena setiap dokumen input dianggap sebagai dokumen satu halaman.

Jenis: Bulat

Rentang yang Valid: Nilai minimum 0.

Diperlukan: Tidak

Relationships

Daftar blok anak dari blok saat ini. Misalnya, objek LINE memiliki blok anak untuk setiap blok WORD yang merupakan bagian dari baris teks. Tidak ada objek Relationship dalam daftar untuk relasi yang tidak ada, seperti ketika blok saat ini tidak memiliki blok anak. Ukuran daftar dapat menjadi sebagai berikut:

  • 0 - Blok tidak memiliki blok anak.

  • 1 - Blok memiliki blok anak.

Jenis: ArrayRelationshipobjek

Diperlukan: Tidak

RowIndex

Baris di mana sel tabel berada. Posisi baris pertama adalah 1.RowIndextidak dikembalikan olehDetectDocumentTextdanGetDocumentTextDetection.

Jenis: Bulat

Rentang yang Valid: Nilai minimum 0.

Diperlukan: Tidak

RowSpan

Jumlah baris yang mencakup sel tabel. Saat ini nilai ini selalu 1, bahkan jika jumlah baris membentang lebih besar dari 1.RowSpantidak dikembalikan olehDetectDocumentTextdanGetDocumentTextDetection.

Jenis: Bulat

Rentang yang Valid: Nilai minimum 0.

Diperlukan: Tidak

SelectionStatus

Status pemilihan elemen seleksi, seperti tombol opsi atau kotak centang.

Jenis: Rangkaian

Nilai Valid: SELECTED | NOT_SELECTED

Diperlukan: Tidak

Text

Kata atau baris teks yang dikenali oleh Amazon Textract.

Jenis: Tali

Diperlukan: Tidak

TextType

Jenis teks yang Amazon Textract telah terdeteksi. Dapat memeriksa teks tulisan tangan dan teks cetak.

Jenis: Rangkaian

Nilai Valid: HANDWRITING | PRINTED

Diperlukan: Tidak

Lihat Juga

Untuk informasi selengkapnya tentang penggunaan API di salah satu bahasaAWSSDK, lihat berikut ini: