Masukan untuk analisis kustom real-time - Amazon Comprehend

Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.

Masukan untuk analisis kustom real-time

Analisis real-time menggunakan model kustom mengambil satu dokumen sebagai input. Topik berikut menjelaskan jenis dokumen masukan yang dapat Anda gunakan.

Dokumen teks biasa

Berikan dokumen input sebagai teks berformat UTF-8.

Dokumen semi-terstruktur

Dokumen semi-terstruktur termasuk dokumen PDF asli dan dokumen Word.

Secara default, analisis kustom real-time menggunakan parser Amazon Comprehend untuk mengekstrak teks dari file Word dan file PDF digital. Untuk file PDF, Anda dapat mengganti default ini dan menggunakan Amazon Ttract untuk mengekstrak teks. Lihat Mengatur opsi ekstraksi teks.

File gambar dan file PDF yang dipindai

Jenis gambar yang didukung termasuk JPEG, PNG, dan TIFF.

Secara default, pengenalan entitas kustom menggunakan operasi Amazon Textract DetectDocumentText API untuk mengekstrak teks dari file gambar dan file PDF yang dipindai. Anda dapat mengganti default ini untuk menggunakan operasi AnalyzeDocument API sebagai gantinya. Lihat Mengatur opsi ekstraksi teks.

Keluaran Amazon Texttract

Anda dapat memberikan output JSON dari Amazon DetectDocumentText Textract API AnalyzeDocument atau API sebagai input ke operasi API real-time untuk klasifikasi kustom dan pengenalan entitas kustom. Amazon Comprehend mendukung jenis input ini untuk operasi API real-time, tetapi tidak untuk konsol.

Ukuran dokumen maksimum untuk analisis waktu nyata

Untuk semua jenis dokumen input, maksimum file input adalah satu halaman, dengan tidak lebih dari 10.000 karakter.

Tabel berikut menunjukkan ukuran file maksimum untuk dokumen masukan.

Tipe file Ukuran maksimum (API) Ukuran maksimum (konsol)
Dokumen teks UTF-8 10 KB 10 KB
Dokumen PDF 10 MB 5 MB
Dokumen Word 10 MB 1 MB
File gambar 10 MB 5 MB
File keluaran Textract 1 MB T/A

Kesalahan dalam dokumen semi-terstruktur

Operasi ClassifyDocumentatau DetectEntitiesAPI dapat mengalami kesalahan tingkat dokumen atau tingkat halaman saat mengekstrak teks dari dokumen semi-terstruktur atau file gambar.

Kesalahan tingkat halaman

Jika operasi ClassifyDocumentatau DetectEntitiesAPI mengalami kesalahan saat memproses halaman dalam dokumen input, respons API menyertakan entri dalam daftar Kesalahan untuk setiap kesalahan.

Entri ErrorCode dalam daftar kesalahan berisi salah satu nilai berikut:

  • TEXTRACT_BAD_PAGE - Amazon Texttract tidak dapat membaca halaman. Untuk informasi selengkapnya tentang batas halaman di Amazon Textract, lihat Kuota Halaman di Amazon Textract.

  • TEXTRACT_PROVISIONED_THROUGHPUT_EXCEEDED — Jumlah permintaan melebihi batas throughput Anda. Untuk informasi selengkapnya tentang kuota throughput di Amazon Textract, lihat Kuota default di Amazon Ttract.

  • PAGE_CHARACTERS_EXCEEDED - Terlalu banyak karakter teks pada halaman (maksimum 10.000 karakter).

  • PAGE_SIZE_EXCEEDED — Ukuran halaman maksimum adalah 10 MB.

  • INTERNAL_SERVER_ERROR — Permintaan mengalami masalah layanan. Coba permintaan API lagi.

Kesalahan tingkat dokumen

Jika operasi ClassifyDocumentatau DetectEntitiesAPI mendeteksi kesalahan tingkat dokumen dalam dokumen masukan Anda, API akan menampilkan respons kesalahan. InvalidRequestException

Dalam respons kesalahan, Reason bidang berisi nilaiINVALID_DOCUMENT.

DetailBidang berisi salah satu nilai berikut:

  • DOCUMENT_SIZE_EXCEEDED — Ukuran dokumen terlalu besar. Periksa ukuran file Anda dan kirimkan kembali permintaan.

  • UNSUPPORTED_DOC_TYPE - Jenis dokumen tidak didukung. Periksa jenis file dan kirimkan kembali permintaan.

  • PAGE_LIMIT_EXCEEDED — Terlalu banyak halaman dalam dokumen. Periksa jumlah halaman dalam file Anda dan kirimkan kembali permintaan.

  • TEXTRACT_ACCESS_DENIED_EXCEPTION - Akses ditolak ke Amazon Texttract. Verifikasi bahwa akun Anda memiliki izin untuk menggunakan operasi Amazon Textract DetectDocumentTextdan AnalyzeDocumentAPI dan mengirimkan kembali permintaan tersebut.