Fase konsumsi - AWS Bimbingan Preskriptif

Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.

Fase konsumsi

Organisasi Anda mengidentifikasi jenis file PDF yang terus dihasilkan (misalnya, laporan operasi harian), memiliki format yang identik, dan Anda perlu mengekstrak data secara otomatis dan teratur. Untuk menyerap file PDF ini, Anda memerlukan bucket Amazon Simple Storage Service (Amazon S3) dan kami merekomendasikan Anda membuat bucket S3 khusus. Namun, Anda juga dapat menggunakan bucket S3 yang sudah ada. Untuk informasi selengkapnya tentang ini, lihat Membuat bucket di dokumentasi Amazon S3.

Bucket S3 memanggilAWS Lambda fungsi saat file PDF baru dicerna. Untuk informasi selengkapnya tentang hal ini, lihat Menggunakan pemicu Amazon S3 untuk memanggil fungsi Lambda diAWS Lambda dokumentasi.

Fungsi Lambda kemudian memproses file PDF. Proses ini dijelaskan diFase pemrosesan bagian panduan ini.

Praktik terbaik untuk fase konsumsi

Gunakan empat praktik terbaik berikut untuk memastikan keberhasilan konsumsi file PDF:

  • Gunakan konsumsi massal untuk file PDF historis dan konsumsi terus menerus untuk file PDF baru.

  • Untuk konsumsi massal, gunakan dump massal (misalnya, mengunggah file PDF dari drive lokal). Jika Anda memiliki lebih dari satu jenis file PDF, kami merekomendasikan Anda menggunakan folder yang berbeda untuk menyimpan setiap jenis file PDF. Kami juga merekomendasikan menggunakan standar penamaan yang unik dan deskriptif untuk file, sepertiwarehouse_<wharehouse_number>_<mmddyy>_<PDF_file_type>.pdf.

  • Untuk terus menelan file PDF baru, sistem sumber Anda harus terhubung ke bucket S3 Anda. Misalnya, Anda dapat mengatur dump harian dari sistem sumber Anda ke bucket S3.

  • Pastikan file PDF Anda berkualitas baik dan dapat dibaca dengan jelas. Sebaiknya gunakan file PDF asli, tetapi Anda juga dapat menggunakan dokumen yang dipindai yang dikonversi ke format PDF jika kata-kata individual jelas. Untuk informasi selengkapnya tentang ini, lihat preprocessing file PDF dengan Amazon Textract: Deteksi dan penghapusan Visual di BlogAWS Machine Learning.