arsitektur referensi - AWS Bimbingan Preskriptif

Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.

arsitektur referensi

Diagram berikut menunjukkan alur kerja setelah Anda menerapkan solusi otomatis panduan ini ke laporan operasi harian. Ketika file baru dicerna ke Amazon Simple Storage Service (Amazon S3), file ini dapat langsung divisualisasikan di QuickSight dasbor Amazon setelah diproses.

Alur kerja untuk empat fase solusi ini: konsumsi, pemrosesan, penyimpanan, dan analitik.

Diagram menunjukkan empat fase berikut:

  1. Penyerapan file PDF — Aplikasi Anda secara otomatis memasukkan file PDF baru dengan format yang identik (misalnya, laporan operasi harian) ke bucket Amazon Simple Storage Service (Amazon S3). Amazon S3 memulai ObjectCreatedperistiwa ketika file PDF baru ditambahkan ke bucket dan ini memanggilAWS Lambda fungsi. Untuk informasi selengkapnya tentang ini, lihat Menggunakan pemicu Amazon S3 untuk memanggil fungsi Lambda di dokumentasi Amazon S3.

  2. Pemrosesan file PDF - Fungsi Lambda mengirimkan satu file PDF ke Amazon Textract, yang mengekstrak konten. Skrip pasca-pemrosesan menjalankan dan mem-parsing respons Amazon Textract dan menggunakan template yang telah ditentukan untuk jenis file PDF ini. Template ini berisi atribut yang benar dan membantu mengekstrak semua pasangan kunci-nilai, tabel, dan teks mentah lainnya dengan benar. Untuk informasi selengkapnya tentang ini, lihat polanya Secara otomatis mengekstrak konten dari file PDF menggunakan Amazon Textract di situs web PanduanAWS Preskriptif.

  3. Penyimpanan data — Data yang diekstraksi dan dikoreksi disimpan dalam tabel Amazon DynamoDB, selain file JSON untuk setiap file PDF. File JSON disimpan dalam bucket S3 yang dapat digunakan oleh layanan pemrosesan dan analisis hilir, seperti Amazon Athena, Amazon QuickSight, atau Amazon SageMaker.

  4. Analisis dan visualisasi — Amazon QuickSight menganalisis data dan membuat visualisasi yang membantu menghasilkan wawasan untuk semua file PDF yang diproses. Setelah dasbor dibuat di Amazon QuickSight, Anda dapat membagikannya dengan pengguna akhir dan tim bisnis Anda.

Pertimbangan-pertimbangan

Solusi panduan ini sesuai untuk memproses file PDF yang memiliki format identik dan tata letak formulir dan tabel yang konsisten. Namun, Anda harus menentukan template dan mengeditnya terlebih dahulu untuk mengotomatisasi proses sepenuhnya dan membuat data yang diekstraksi tersedia untuk analisis. Template ini kemudian digunakan selama pemrosesan dengan fungsi Lambda.

Meskipun solusi ini dapat diterapkan ke berbagai jenis file PDF secara bersamaan, Anda harus membuat dan menentukan templat terpisah untuk setiap jenis file PDF dan menyimpannya di lokasi yang dapat diakses (misalnya, Amazon S3). Kami menyarankan Anda menggunakan pengenal unik untuk setiap jenis file PDF, seperti nama file PDF atau folder berbeda di bucket S3 Anda. Fungsi Lambda kemudian dapat memanggil template yang sesuai saat memproses jenis file PDF.