Merancang solusi otomatis untuk menganalisis file PDF diAWS Cloud - AWS Bimbingan Preskriptif

Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.

Merancang solusi otomatis untuk menganalisis file PDF diAWS Cloud

Tianxia Jia dan Yanyan Zhang, Amazon Web Services (AWS)

Oktober 2021 (riwayat dokumen)

Organizations secara teratur menggunakan file PDF untuk menyimpan dan mentransfer berbagai jenis data, termasuk teks, tabel, dan formulir. Namun, sulit untuk secara otomatis mengumpulkan dan menganalisis data dari file PDF yang berbeda. Misalnya, aplikasi bisnis organisasi mungkin secara teratur menelan file PDF yang berbeda dengan format yang identik tetapi pengguna harus membuka dan membaca secara individual. Ini berarti bahwa pengguna merasa sulit untuk menghasilkan wawasan yang berguna dari file PDF tersebut dan harus secara manual mengekstrak data yang relevan dan menggunakan alat pihak ketiga untuk analisis lebih lanjut.

Di Amazon Web Services (AWS) Cloud, Amazon Textract secara otomatis mengekstrak informasi (misalnya, teks cetak, formulir, dan tabel) dari file PDF dan menghasilkan file berformat JSON yang berisi informasi dari file PDF asli. Selama pasca-pemrosesan, data yang diekstraksi disimpan di Amazon DynamoDB dan Anda dapat menghasilkan wawasan bisnis menggunakan analitik dan visualisasi di Amazon QuickSight.

Panduan ini menyediakan solusi analisis file PDF otomatis tanpa server dalam empat fase:

Panduan ini menggunakan Amazon S3 untuk menyimpan data mentah dan diproses, AWS Lambdauntuk komputasi, Amazon Textract untuk mengekstrak konten dari file PDF, DynamoDB untuk menyimpan data yang diproses, dan Amazon QuickSight untuk analisis dan visualisasi. Panduan ini ditujukan untuk ilmuwan data, insinyur pembelajaran mesin (ML), dan arsitek solusi yang ingin secara otomatis mengekstrak informasi dan menghasilkan wawasan dari file PDF.

Hasil bisnis yang ditargetkan

Anda harus mengharapkan tiga hasil berikut setelah merancang solusi otomatis untuk menganalisis file PDF padaAWS Cloud:

  • Secara otomatis memproses data mentah dari beberapa file PDF dalam skala besar dengan menggunakan solusi otomatis yang menyegarkan saat data baru tersedia.

  • Aplikasi pemodelan dan analitik hilir (misalnya, pemodelan MLdi Amazon SageMaker) dapat mengakses konten file PDF yang diekstrak.

  • Dasbor data yang menampilkan semua konten file PDF kepada pengguna akhir Anda di Amazon QuickSight.