Tahap penyimpanan data - AWS Bimbingan Preskriptif

Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.

Tahap penyimpanan data

Karena konten file PDF biasanya menyertakan formulir (pasangan nilai kunci), tabel, dan teks gratis, file JSON harus menyertakan pasangan nilai kunci bersarang untuk mewakili struktur file PDF dan menyimpan data yang diekstraksi. File PDF adalah data yang tidak terstruktur atau semi-terstruktur, yang berarti mereka tidak memiliki skema tetap. Ini berarti bahwa hal ini dapat menantang untuk menyimpan isi file PDF dalam database SQL tradisional. Namun, database NoSQL sangat ideal untuk menyimpan konten file PDF karena tidak memerlukan skema yang telah ditentukan. Setelah konten file PDF diekstraksi dan dipasca-diproses, Anda dapat menyimpannya sebagai satu catatan untuk setiap file PDF dalam tabel Amazon DynamoDB.

Kami merekomendasikan Anda menyimpan data akhir sebagai file JSON di Amazon Simple Storage Service (Amazon S3) dan sebagai catatan di tabel DynamoDB. Aplikasi pemrosesan dan analitik hilir Anda dapat dengan mudah mereferensikan file JSON di Amazon S3. Misalnya, mereka dapat menggunakan Amazon S3 sebagai sumber data untuk membuat model MLdi Amazon SageMaker, secara langsung mengkueri file JSON menggunakan Amazon Athena, atau menggunakan Amazon S3 sebagai sumber data untuk Amazon QuickSight. Isi file PDF yang diekstrak yang disimpan dalam tabel DynamoDB dapat dengan mudah diakses dengan latensi rendah pada skala apa pun, yang membuat pendekatan ini sesuai untuk digunakan sebagai database backend Anda untuk kueri dan pemindaian.

Praktik terbaik untuk fase penyimpanan data

Gunakan dua praktik terbaik berikut untuk memastikan fase penyimpanan data yang berhasil:

  • Pastikan Anda menyimpan file JSON terakhir di Amazon S3 di folder keluaran yang berbeda dan menggunakan nama berdasarkan jenis file PDF.

  • DynamoDB menggunakan kunci utama untuk secara unik mengidentifikasi setiap item dalam sebuah tabel. Kunci utama dapat berupa satu kunci (misalnya, kunci partisi) atau kunci komposit (misalnya, kunci partisi dan kunci sortir). Untuk kunci utama solusi ini, sebaiknya gunakan pengenal file PDF unik (misalnya, nama file PDF) sebagai kunci partisi atau kombinasi dua pengidentifikasi (misalnya, tanggal dan nama gudang) sebagai kunci partisi dan kunci sortir. Untuk informasi selengkapnya tentang ini, lihat Komponen inti Amazon DynamoDB dalam dokumentasi Amazon DynamoDB.