Merancang solusi otomatis untuk menganalisis file PDF di AWS Cloud

Tianxia Jia dan Yanyan Zhang, Amazon Web Services ()AWS

Oktober 2021 (riwayat dokumen)

Organizations secara teratur menggunakan file PDF untuk menyimpan dan mentransfer berbagai tipe data, termasuk teks, tabel, dan formulir. Namun, mungkin sulit untuk secara otomatis mengumpulkan dan menganalisis data dari file PDF yang berbeda. Misalnya, aplikasi bisnis organisasi mungkin secara teratur menelan file PDF yang berbeda dengan format yang identik tetapi pengguna harus membuka dan membaca secara individual. Ini berarti bahwa pengguna merasa sulit untuk menghasilkan wawasan yang berguna dari file PDF tersebut dan harus secara manual mengekstrak data yang relevan dan menggunakan alat pihak ketiga untuk analisis lebih lanjut.

Di Amazon Web Services (AWS) Cloud, Amazon Textract secara otomatis mengekstrak informasi (misalnya, teks cetak, formulir, dan tabel) dari file PDF dan menghasilkan file berformat JSON yang berisi informasi dari file PDF asli. Selama pasca-pemrosesan, data yang diekstraksi disimpan di Amazon DynamoDB dan Anda dapat menghasilkan wawasan bisnis menggunakan analitik dan visualisasi di Amazon. QuickSight

Panduan ini menyediakan solusi analisis file PDF otomatis tanpa server dalam empat fase:

Fase konsumsi— Siapkan jenis file PDF yang terus dihasilkan organisasi Anda (misalnya, laporan operasi harian) dan Anda perlu mengekstrak data secara teratur.
Fase pemrosesan— Ekstrak nilai data yang diperlukan oleh aplikasi hilir Anda dari file PDF.
Fase penyimpanan data— Simpan data yang diekstrak sebagai file JSON di Amazon Simple Storage Service (Amazon S3) Simple Storage Service (Amazon S3) dan sebagai catatan dalam tabel DynamoDB.
Fase analisis— Buat dasbor di Amazon QuickSight untuk memvisualisasikan dan membantu menganalisis data.

Panduan ini menggunakan Amazon S3 untuk menyimpan data mentah dan diproses, AWS Lambdauntuk komputasi, Amazon Textract untuk mengekstrak konten dari file PDF, DynamoDB untuk menyimpan data yang diproses, dan Amazon untuk analisis dan visualisasi. QuickSight Panduan ini ditujukan untuk ilmuwan data, insinyur pembelajaran mesin (ML), dan arsitek solusi yang ingin secara otomatis mengekstrak informasi dan menghasilkan wawasan dari file PDF.

Hasil bisnis yang ditargetkan

Anda harus mengharapkan tiga hasil berikut setelah merancang solusi otomatis untuk menganalisis file PDF pada AWS Cloud:

Secara otomatis memproses data mentah dari beberapa file PDF dalam skala besar dengan menggunakan solusi otomatis yang menyegarkan ketika data baru tersedia.
Aplikasi pemodelan dan analitik hilir (misalnya, pemodelan ML di Amazon SageMaker AI) dapat mengakses konten file PDF yang diekstraksi.
Dasbor data yang menampilkan semua konten file PDF kepada pengguna akhir Anda di QuickSight.

Awas Javascript dinonaktifkan atau tidak tersedia di browser Anda.

Untuk menggunakan Dokumentasi AWS, Javascript harus diaktifkan. Lihat halaman Bantuan browser Anda untuk petunjuk.

Konvensi Dokumen

Arsitektur referensi