Fase penyimpanan data - AWS Bimbingan Preskriptif

Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.

Fase penyimpanan data

Karena konten file PDF biasanya menyertakan formulir (pasangan nilai kunci), tabel, dan teks gratis, file JSON harus menyertakan pasangan nilai kunci bersarang untuk mewakili struktur file PDF dan menyimpan data yang diekstraksi. File PDF adalah data tidak terstruktur atau semi-terstruktur, yang berarti mereka tidak memiliki skema tetap. Ini berarti bahwa mungkin sulit untuk menyimpan konten file PDF dalam database SQL tradisional. Namun, database NoSQL sangat ideal untuk menyimpan konten file PDF karena tidak memerlukan skema yang telah ditentukan. Setelah konten file PDF diekstraksi dan diproses pasca, Anda dapat menyimpannya sebagai satu catatan untuk setiap file PDF dalam tabel Amazon DynamoDB.

Kami menyarankan Anda menyimpan data akhir yang diekstraksi sebagai file JSON di Amazon Simple Storage Service (Amazon S3) dan sebagai catatan dalam tabel DynamoDB. Aplikasi pemrosesan dan analitik hilir Anda dapat dengan mudah mereferensikan file JSON di Amazon S3. Misalnya, mereka dapat menggunakan Amazon S3 sebagai sumber data untuk membangun model ML di Amazon SageMaker AI, langsung menanyakan file JSON menggunakan Amazon Athena, atau menggunakan Amazon S3 sebagai sumber data untuk Amazon. QuickSight Konten file PDF yang diekstraksi yang disimpan dalam tabel DynamoDB dapat dengan mudah diakses dengan latensi rendah pada skala apa pun, yang membuat pendekatan ini sesuai untuk digunakan sebagai basis data backend Anda untuk kueri dan pemindaian.

Praktik terbaik untuk fase penyimpanan data

Gunakan dua praktik terbaik berikut untuk memastikan fase penyimpanan data yang sukses:

  • Pastikan Anda menyimpan file JSON terakhir di Amazon S3 di folder keluaran yang berbeda dan gunakan nama berdasarkan jenis file PDF.

  • DynamoDB menggunakan kunci utama untuk mengidentifikasi secara unik setiap item dalam tabel. Kunci primer dapat berupa satu kunci (misalnya, kunci partisi) atau kunci komposit (misalnya, kunci partisi dan kunci pengurutan). Untuk kunci utama solusi ini, kami sarankan Anda menggunakan pengenal file PDF unik (misalnya, nama file PDF) sebagai kunci partisi atau kombinasi dua pengidentifikasi (misalnya, tanggal dan nama gudang) sebagai kunci partisi dan kunci sortir. Untuk informasi selengkapnya tentang ini, lihat Komponen inti Amazon DynamoDB di dokumentasi Amazon DynamoDB.