Praktik terbaik - AWS Panduan Preskriptif

Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.

Praktik terbaik

Kami menyarankan Anda mengikuti praktik terbaik penyimpanan dan teknis. Praktik terbaik ini dapat membantu Anda mendapatkan hasil maksimal dari ariktur data-sentris Anda.

Praktik terbaik penyimpanan untuk data besar

Tabel berikut menjelaskan praktik terbaik umum untuk menyimpan file untuk beban pemrosesan data besar di Amazon S3. Kolom terakhir adalah contoh kebijakan siklus hidup yang dapat Anda atur. Jika Amazon S3 Intelligent-Tiering diaktifkan (yang memberikan penghematan biaya penyimpanan otomatis saat pola akses data berubah secara otomatis), Anda tidak perlu menyetel kebijakan secara manual.

Nama lapisan data

Deskripsi

Contoh strategi kebijakan siklus hidup

Mentah

Berisi data mentah yang belum diproses

Catatan: Untuk sumber data eksternal, lapisan data mentah biasanya merupakan salinan data 1:1, tetapi pada AWS data dapat dipartisi berdasarkan kunci berdasarkan Wilayah AWS atau tanggal selama proses konsumsi.

Setelah satu tahun, pindahkan file ke kelas penyimpanan IA standar S3. Setelah dua tahun di S3 Standard-IA, arsipkan file di Amazon Simple Storage Service Glacier (Amazon S3 Glacier).

Stage

Berisi data olahan menengah yang dioptimalkan untuk konsumsi

Contoh: CSV ke Apache Parquet mengonversi file mentah atau transformasi data

Anda dapat menghapus data setelah periode waktu yang ditentukan atau sesuai dengan persyaratan organisasi Anda.

Anda dapat menghapus beberapa turunan data (misalnya, transformasi Apache Avro dari format JSON asli) dari data lake setelah waktu yang lebih singkat (misalnya, setelah 90 hari).

Analitik

Berisi data agregat untuk kasus penggunaan spesifik Anda dalam format siap konsumsi

Contoh: Apache Parquet

Anda dapat memindahkan data ke IA Standar S3, lalu menghapus data setelah periode waktu yang ditentukan atau sesuai dengan persyaratan organisasi Anda.

Diagram berikut menunjukkan contoh strategi partisi (sesuai dengan satu folder/awalan S3) yang dapat Anda gunakan di semua lapisan data. Kami menyarankan Anda memilih strategi partisi berdasarkan bagaimana data Anda digunakan di hilir. Misalnya, jika laporan dibuat berdasarkan data Anda (di mana kueri paling umum pada laporan memfilter hasil berdasarkan wilayah dan tanggal), pastikan untuk menyertakan wilayah dan tanggal sebagai partisi untuk meningkatkan kinerja kueri dan runtime.

Diagram strategi partisi

Praktik terbaik teknis

Praktik terbaik teknis bergantung pada layanan AWS spesifik dan teknologi pemrosesan yang Anda gunakan untuk mendesain arsitektur data-sentris Anda. Namun, kami menyarankan Anda untuk mengingat praktik terbaik berikut. Praktik terbaik ini berlaku untuk kasus penggunaan pemrosesan data yang khas.

Luas

Praktik terbaik

SQL

Kurangi jumlah data yang harus ditanyakan dengan memproyeksikan atribut pada data Anda. Alih-alih mengurai seluruh tabel, Anda dapat menggunakan proyeksi data untuk memindai dan mengembalikan hanya kolom tertentu yang diperlukan dalam tabel.

Hindari gabungan besar jika memungkinkan karena gabungan antara beberapa tabel dapat secara signifikan mempengaruhi kinerja karena tuntutan sumber daya mereka yang intensif.

Apache Spark

Optimalkan aplikasi Spark dengan partisi beban kerja di AWS Glue (blog AWS Big Data).

Optimalkan manajemen memori di AWS Glue (blog AWS Big Data).

Desain database

Ikuti Praktik Terbaik Arsitektur untuk Database (AWS Architecture Center).

Pemangkasan data

Gunakan pemangkasan partisi sisi server dengan. catalogPartitionPredicate

Penskalaan

Memahami dan menerapkan penskalaan horizontal.