Masukan untuk analisis kustom asinkron - Amazon Comprehend

Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.

Masukan untuk analisis kustom asinkron

Anda dapat memasukkan beberapa dokumen ke pekerjaan analisis asinkron kustom. Topik berikut menjelaskan jenis dokumen masukan yang dapat Anda gunakan. Ukuran file maksimum bervariasi tergantung pada jenis dokumen input.

Dokumen teks biasa

Berikan semua dokumen input teks biasa sebagai teks berformat UTF-8. Tabel berikut mencantumkan ukuran file maksimum dan pedoman lainnya.

catatan

Batasan ini berlaku ketika semua file input adalah teks biasa.

Deskripsi Kuota/Pedoman
Ukuran file maksimum untuk satu dokumen per format file (Klasifikasi khusus) 1 byte—10 MB
Ukuran dokumen (Pengenalan entitas khusus) 1 byte—1 MB
Jumlah maksimum file, satu dokumen per file 1.000.000
Jumlah baris maksimum, satu dokumen per baris (untuk semua file dalam permintaan) 1.000.000
Ukuran korpus dokumen (semua dokumen dalam plaintext digabungkan) 1 byte—5 GB

Dokumen semi-terstruktur

Dokumen semi-terstruktur termasuk dokumen PDF asli dan dokumen Word.

Tabel berikut mencantumkan ukuran file maksimum dan pedoman lainnya.

Deskripsi Kuota/Pedoman
Ukuran dokumen (PDF) 1 byte—50 MB
Ukuran dokumen (Docx) 1 byte—5 MB
Jumlah maksimum file 500
Jumlah halaman maksimum untuk file PDF atau Docx 100
Ukuran korpus dokumen setelah ekstraksi teks (plaintext, semua file digabungkan) 1 byte—5 GB

Secara default, analisis kustom menggunakan parser Amazon Comprehend untuk mengekstrak teks dari file Word dan file PDF digital. Untuk file PDF, Anda dapat mengganti default ini dan menggunakan Amazon Ttract untuk mengekstrak teks. Lihat Mengatur opsi ekstraksi teks.

File gambar dan file PDF yang dipindai

Analisis kustom mendukung gambar JPEG, PNG, dan TIFF.

Tabel berikut mencantumkan ukuran file maksimum untuk gambar. File PDF yang dipindai tunduk pada ukuran maksimum yang sama dengan file PDF asli.

Deskripsi Kuota/Pedoman
Ukuran gambar (JPG atau PNG) 1 byte—10 MB
Ukuran gambar (TIFF) 1 byte—10 MB. Maksimal satu halaman.

Untuk informasi tambahan tentang gambar, lihatPraktik terbaik untuk gambar.

Secara default, Amazon Comprehend menggunakan operasi Amazon DetectDocumentText Textract API untuk mengekstrak teks dari file gambar dan file PDF yang dipindai. Anda dapat mengganti default ini untuk menggunakan operasi AnalyzeDocument API sebagai gantinya. Lihat Mengatur opsi ekstraksi teks.

File JSON keluaran Amazon Textract

Untuk pengenalan entitas kustom, tetapi bukan klasifikasi kustom, Anda dapat menyediakan file keluaran dari operasi Amazon Textract AnalyzeDocument API sebagai input ke pekerjaan analisis.