Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.
Fase konsumsi
Organisasi Anda mengidentifikasi jenis file PDF yang terus dibuat (misalnya, laporan operasi harian), memiliki format yang identik, dan Anda perlu mengekstrak data secara otomatis dan teratur. Untuk menyerap file PDF ini, Anda memerlukan bucket Amazon Simple Storage Service (Amazon S3) dan kami sarankan Anda membuat bucket S3 khusus. Namun, Anda juga dapat menggunakan bucket S3 yang ada. Untuk informasi selengkapnya tentang ini, lihat Membuat bucket di dokumentasi Amazon S3.
Bucket S3 memanggil AWS Lambda fungsi saat file PDF baru dicerna. Untuk informasi selengkapnya tentang ini, lihat Menggunakan pemicu Amazon S3 untuk menjalankan fungsi Lambda dalam dokumentasi. AWS Lambda
Fungsi Lambda kemudian memproses file PDF. Proses ini dijelaskan di Fase pemrosesan bagian panduan ini.
Praktik terbaik untuk fase konsumsi
Gunakan empat praktik terbaik berikut untuk memastikan konsumsi file PDF berhasil:
-
Gunakan konsumsi massal untuk file PDF historis dan konsumsi terus menerus untuk file PDF baru.
-
Untuk konsumsi massal, gunakan dump massal (misalnya, mengunggah file PDF dari drive lokal). Jika Anda memiliki lebih dari satu jenis file PDF, kami sarankan Anda menggunakan folder yang berbeda untuk menyimpan setiap jenis file PDF. Kami juga merekomendasikan penggunaan standar penamaan yang unik dan deskriptif untuk file, seperti
warehouse_<warehouse_number>_<mmddyy>_<PDF_file_type>.pdf
. -
Untuk terus menelan file PDF baru, sistem sumber Anda harus terhubung ke bucket S3 Anda. Misalnya, Anda dapat mengatur dump harian dari sistem sumber Anda ke bucket S3.
-
Pastikan file PDF Anda berkualitas baik dan dapat dibaca dengan jelas. Kami merekomendasikan menggunakan file PDF asli, tetapi Anda juga dapat menggunakan dokumen yang dipindai yang dikonversi ke format PDF jika kata-kata masing-masing jelas. Untuk informasi selengkapnya tentang ini, lihat praprosesing file PDF dengan Amazon Textract: Deteksi dan penghapusan visual
di Blog Machine AWS Learning.