StartDocumentAnalysis - Amazon Textract

Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.

StartDocumentAnalysis

Mulai analisis asinkron dari dokumen masukan untuk hubungan antara item terdeteksi seperti pasangan kunci-nilai, tabel, dan elemen seleksi.

StartDocumentAnalysisdapat menganalisis teks dalam dokumen yang ada dalam format JPEG, PNG, TIFF, dan PDF. Dokumen-dokumen tersebut disimpan di bucket Amazon S3. GunakanDocumentLocationuntuk menentukan nama bucket dan nama file dokumen.

StartDocumentAnalysismengembalikan pengenal pekerjaan (JobId) yang Anda gunakan untuk mendapatkan hasil operasi. Ketika analisis teks selesai, Amazon Textract menerbitkan status selesai untuk topik Amazon Simple Notification Service (Amazon SNS) yang Anda tentukan diNotificationChannel. Untuk mendapatkan hasil operasi analisis teks, periksa terlebih dahulu bahwa nilai status yang diterbitkan ke topik Amazon SNS adalahSUCCEEDED. Jika ya, hubungiGetDocumentAnalysis, dan lulus pengenal pekerjaan (JobId) dari panggilan awal keStartDocumentAnalysis.

Untuk informasi selengkapnya, lihatAnalisis Teks Dokumen.

Sintaksis Permintaan

{ "ClientRequestToken": "string", "DocumentLocation": { "S3Object": { "Bucket": "string", "Name": "string", "Version": "string" } }, "FeatureTypes": [ "string" ], "JobTag": "string", "KMSKeyId": "string", "NotificationChannel": { "RoleArn": "string", "SNSTopicArn": "string" }, "OutputConfig": { "S3Bucket": "string", "S3Prefix": "string" } }

Parameter Permintaan

Permintaan menerima data berikut dalam format JSON.

ClientRequestToken

Token idempotensi yang Anda gunakan untuk mengidentifikasi permintaan mulai. Jika Anda menggunakan token yang sama dengan beberapa permintaan StartDocumentAnalysis, JobId yang sama dikembalikan. GunakanClientRequestTokenuntuk mencegah agar tidak ada tugas yang sama yang dimulai secara tidak sengaja lebih dari sekali. Untuk informasi selengkapnya, lihatMemanggil Operasi Asinkron Amazon Texact.

Jenis: String

Batasan Panjang: Panjang minimum 1. Panjang maksimum adalah 64.

Pola: ^[a-zA-Z0-9-_]+$

Diperlukan: Tidak

DocumentLocation

Lokasi dokumen yang akan diproses.

Tipe: Objek DocumentLocation

Diperlukan: Ya

FeatureTypes

Daftar jenis analisis untuk melakukan. Tambahkan TABEL ke daftar untuk mengembalikan informasi tentang tabel yang terdeteksi dalam dokumen input. Tambahkan FORMS untuk mengembalikan data formulir yang terdeteksi. Untuk melakukan kedua jenis analisis, tambahkan TABEL dan BENTUK keFeatureTypes. Semua baris dan kata yang terdeteksi dalam dokumen disertakan dalam respons (termasuk teks yang tidak terkait dengan nilaiFeatureTypes).

Jenis: Array string

Nilai Valid: TABLES | FORMS

Diperlukan: Ya

JobTag

Pengenal yang Anda tetapkan yang disertakan dalam notifikasi penyelesaian yang dipublikasikan ke topik Amazon SNS. Misalnya, Anda dapat menggunakanJobTaguntuk mengidentifikasi jenis dokumen yang sesuai dengan pemberitahuan penyelesaian (seperti formulir pajak atau tanda terima).

Jenis: String

Batasan Panjang: Panjang minimum 1. Panjang maksimum adalah 64.

Pola: [a-zA-Z0-9_.\-:]+

Diperlukan: Tidak

KMSKeyId

Kunci KMS yang digunakan untuk mengenkripsi hasil kesimpulan. Hal ini dapat baik dalam Key ID atau Key Alias format. Ketika kunci KMS disediakan, kunci KMS akan digunakan untuk enkripsi sisi server dari objek dalam ember pelanggan. Ketika parameter ini tidak diaktifkan, hasilnya akan dienkripsi sisi server, menggunakan SSE-S3.

Jenis: String

Batasan Panjang: Panjang minimum 1. Panjang maksimum 2048.

Pola: ^[A-Za-z0-9][A-Za-z0-9:_/+=,@.-]{0,2048}$

Diperlukan: Tidak

NotificationChannel

ARN topik Amazon SNS yang Anda inginkan agar Amazon Textract mempublikasikan status penyelesaian operasi.

Tipe: Objek NotificationChannel

Diperlukan: Tidak

OutputConfig

Set jika output akan pergi ke ember pelanggan didefinisikan. Secara default, Amazon Textract akan menyimpan hasil secara internal untuk diakses oleh operasi GetDocumentAnalysis.

Tipe: Objek OutputConfig

Diperlukan: Tidak

Sintaksis Respons

{ "JobId": "string" }

Elemen Respons

Jika tindakan berhasil, layanan mengirimkan kembali respons HTTP 200.

Layanan mengembalikan data berikut dalam format JSON.

JobId

Pengidentifikasi untuk tugas deteksi teks dokumen. Gunakan JobId untuk mengidentifikasi tugas dalam panggilan berikutnya ke GetDocumentAnalysis. SEBUAHJobIdNilai hanya berlaku selama 7 hari.

Jenis: String

Batasan Panjang: Panjang minimum 1. Panjang maksimum adalah 64.

Pola: ^[a-zA-Z0-9-_]+$

Kesalahan

AccessDeniedException

Anda tidak berwenang untuk melakukan tindakan. Gunakan Amazon Resource Name (ARN) dari pengguna resmi atau IAM role untuk melakukan operasi.

Kode Status HTTP: 400

BadDocumentException

Amazon Textract tidak dapat membaca dokumen. Untuk informasi selengkapnya tentang batas dokumen di Amazon Textract, lihatBatas Keras di Amazon Textract.

Kode Status HTTP: 400

DocumentTooLargeException

Dokumen tidak dapat diproses karena terlalu besar. Ukuran dokumen maksimum untuk operasi sinkron 10 MB. Ukuran dokumen maksimum untuk operasi asinkron adalah 500 MB untuk file PDF.

Kode Status HTTP: 400

IdempotentParameterMismatchException

Parameter input ClientRequestToken digunakan kembali dengan suatu operasi, tapi setidaknya salah satu parameter input lainnya berbeda dari panggilan ke operasi sebelumnya.

Kode Status HTTP: 400

InternalServerError

Amazon Textract mengalami masalah layanan. Coba lagi panggilan Anda.

Kode Status HTTP: 500

InvalidKMSKeyException

Menunjukkan bahwa Anda tidak memiliki izin mendekripsi dengan kunci KMS yang dimasukkan, atau kunci KMS dimasukkan secara tidak benar.

Kode Status HTTP: 400

InvalidParameterException

Parameter input melanggar batasan. Misalnya, dalam operasi sinkron,InvalidParameterExceptionpengecualian terjadi ketika salah satuS3ObjectatauBytesnilai-nilai yang disediakan dalamDocumentparameter permintaan. Validasi parameter Anda sebelum memanggil operasi API lagi.

Kode Status HTTP: 400

InvalidS3ObjectException

Amazon Textract tidak dapat mengakses objek S3 yang ditentukan dalam permintaan. untuk informasi selengkapnya,Mengkonfigurasi Akses ke Amazon S3Untuk informasi pemecahan masalah, lihatPemecahan Masalah Amazon S3

Kode Status HTTP: 400

LimitExceededException

Batas layanan Amazon Textract terlampaui. Misalnya, jika Anda memulai terlalu banyak pekerjaan asinkron secara bersamaan, panggilan untuk memulai operasi (StartDocumentTextDetectionMisalnya) menaikkan pengecualian LimitExceededException (kode status HTTP: 400) hingga jumlah tugas yang berjalan bersamaan di bawah batas layanan Amazon Textract TExceededException.

Kode Status HTTP: 400

ProvisionedThroughputExceededException

Jumlah permintaan melebihi batas throughput Anda. Jika Anda ingin meningkatkan batas ini, hubungi Amazon Textract.

Kode Status HTTP: 400

ThrottlingException

Amazon Textract untuk sementara tidak dapat memproses permintaan. Coba lagi panggilan Anda.

Kode Status HTTP: 500

UnsupportedDocumentException

Format dokumen input tidak didukung. Dokumen untuk operasi dapat dalam format PNG, JPEG, PDF, atau TIFF.

Kode Status HTTP: 400

Lihat Juga

Untuk informasi selengkapnya tentang penggunaan API ini di salah satu bahasa yang spesifikAWSSDK, lihat yang berikut ini: