Lapisan data yang disarankan - AWS Panduan Preskriptif

Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.

Lapisan data yang disarankan

Jika Anda bekerja dengan data yang tidak sensitif, seperti data informasi yang tidak dapat diidentifikasi secara pribadi (PII), sebaiknya gunakan setidaknya tiga lapisan data yang berbeda dalam data lake diAWS Cloud.

Namun, Anda mungkin memerlukan lapisan tambahan tergantung pada kompleksitas data dan kasus penggunaan. Misalnya, jika Anda bekerja dengan data sensitif (misalnya, data PII), sebaiknya gunakan bucket Amazon Simple Storage Service (Amazon S3) tambahan sebagai landing zone dan kemudian menutupi data sebelum dipindahkan ke lapisan data mentah. Untuk informasi selengkapnya tentang detail ini, lihat perawatan ini.Mendata data data data data

Setiap lapisan data harus memiliki bucket S3 individual; tabel berikut menjelaskan lapisan data yang kami rekomendasikan:

Nama lapisan data Deskripsi Contoh strategi kebijakan siklus hidup
Mentah

Berisi mentah, data yang belum diproses dan merupakan lapisan di mana data dicerna ke dalam data lake.

Jika memungkinkan, Anda harus menyimpan format file asli dan mengaktifkan versi di bucket S3.

Setelah satu tahun, pindahkan file ke kelas penyimpanan akses jarang (IA) Amazon S3. Setelah dua tahun di Amazon S3 IA, arsipkan ke Amazon S3 Glacier.
Panggung

Berisi menengah, data diproses yang dioptimalkan untuk konsumsi (misalnya CSV ke Apache Parquet dikonversi file mentah atau transformasi data).

AWS GluePekerjaan membaca file dari lapisan mentah dan memvalidasi data. AWS GluePekerjaan kemudian menyimpan data dalam file Apache Parquet-diformat dan metadata disimpan dalam tabel di KatalogAWS Glue Data.

Data dapat dihapus setelah jangka waktu yang ditentukan atau sesuai dengan kebutuhan organisasi Anda.

Beberapa turunan data (misalnya, transformasi Apache Avro dari format JSON asli) dapat dihapus dari data lake setelah waktu yang lebih singkat (misalnya, setelah 90 hari).

Analitik Berisi data agregat untuk kasus penggunaan spesifik Anda dalam format siap konsumsi (misalnya, Apache Parquet). Data dapat dipindahkan ke Amazon S3 IA dan kemudian dihapus setelah periode waktu yang ditentukan atau sesuai dengan persyaratan organisasi Anda.
catatan

Anda harus mengevaluasi semua strategi kebijakan siklus hidup yang direkomendasikan terhadap kebutuhan organisasi, persyaratan peraturan, pola kueri, dan pertimbangan biaya Anda.