Arsitektur referensi untuk Apache Iceberg di AWS - AWS Panduan Preskriptif

Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.

Arsitektur referensi untuk Apache Iceberg di AWS

Bagian ini memberikan contoh bagaimana menerapkan praktik terbaik dalam kasus penggunaan yang berbeda seperti konsumsi batch dan data lake yang menggabungkan konsumsi data batch dan streaming.

Konsumsi batch setiap malam

Untuk kasus penggunaan hipotetis ini, katakanlah tabel Iceberg Anda menelan transaksi kartu kredit setiap malam. Setiap batch hanya berisi pembaruan tambahan, yang harus digabungkan ke dalam tabel target. Beberapa kali per tahun, data historis lengkap diterima. Untuk skenario ini, kami merekomendasikan arsitektur dan konfigurasi berikut.

Catatan: Ini hanya sebuah contoh. Konfigurasi optimal tergantung pada data dan persyaratan Anda.

Data flow diagram showing raw storage to Amazon EMR and AWS Glue ETL, then to AWS Glue Data Catalog and data lake.

Rekomendasi:

  • Ukuran file: 128 MB, karena tugas Apache Spark memproses data dalam potongan 128 MB.

  • Jenis tulis: copy-on-write. Seperti yang dijelaskan sebelumnya dalam panduan ini, pendekatan ini membantu memastikan bahwa data ditulis dengan cara yang dioptimalkan untuk dibaca.

  • Variabel partisi: tahun/bulan/hari. Dalam kasus penggunaan hipotetis kami, kami paling sering menanyakan data terbaru, meskipun kami kadang-kadang menjalankan pemindaian tabel penuh selama dua tahun terakhir data. Tujuan partisi adalah untuk mendorong operasi baca cepat berdasarkan persyaratan kasus penggunaan.

  • Urutkan urutan: stempel waktu

  • Katalog data: AWS Glue Data Catalog

Data lake yang menggabungkan batch dan mendekati konsumsi real-time

Anda dapat menyediakan data lake di Amazon S3 yang membagikan data batch dan streaming di seluruh akun dan Wilayah. Untuk diagram arsitektur dan detail, lihat posting AWS blog Membangun danau data transaksional menggunakan Apache Iceberg, AWS Glue, dan berbagi data lintas akun menggunakan dan Amazon Athena. AWS Lake Formation