Gambaran Umum Membuat format tabel terbuka dari sumber AWS Glue Streaming

Menggunakan kerangka Data Lake dengan AWS Glue Studio

Gambaran Umum

Kerangka kerja data lake sumber terbuka menyederhanakan pemrosesan data tambahan untuk file yang disimpan di danau data yang dibangun di Amazon S3. AWS Glue 3.0 dan yang lebih baru mendukung kerangka kerja penyimpanan data lake sumber terbuka berikut:

Apache Hudi
Yayasan Linux Delta Lake
Gunung Es Apache

Seperti AWS Glue 4.0, AWS Glue menyediakan dukungan asli untuk kerangka kerja ini sehingga Anda dapat membaca dan menulis data yang Anda simpan di Amazon S3 dengan cara yang konsisten secara transaksional. Tidak perlu menginstal konektor terpisah atau menyelesaikan langkah-langkah konfigurasi tambahan untuk menggunakan kerangka kerja ini di AWS Glue pekerjaan.

Kerangka Data Lake dapat digunakan sebagai sumber atau target di dalamnya AWS Glue Studio melalui pekerjaan Spark Script Editor. Untuk informasi lebih lanjut tentang menggunakan Apache Hudi, Apache Iceberg dan Delta Lake lihat: Menggunakan kerangka data lake dengan AWS Glue Pekerjaan ETL.

Membuat format tabel terbuka dari sumber AWS Glue Streaming

AWS Glue streaming pekerjaan ETL terus mengkonsumsi data dari sumber streaming, membersihkan dan mengubah data dalam penerbangan, dan membuatnya tersedia untuk analisis dalam hitungan detik.

AWS menawarkan berbagai pilihan layanan untuk mendukung kebutuhan Anda. Layanan replikasi AWS database seperti Database Migration Service dapat mereplikasi data dari sistem sumber Anda ke Amazon S3, yang biasanya menampung lapisan penyimpanan data lake. Meskipun mudah untuk menerapkan pembaruan pada sistem manajemen basis data relasional (RDBMS) yang mendukung aplikasi sumber online, sulit untuk menerapkan proses CDC ini di danau data Anda. Kerangka kerja manajemen data sumber terbuka menyederhanakan pemrosesan data tambahan dan pengembangan pipa data, dan merupakan pilihan yang baik untuk memecahkan masalah ini.

Untuk informasi selengkapnya, lihat:

Awas Javascript dinonaktifkan atau tidak tersedia di browser Anda.

Untuk menggunakan Dokumentasi AWS, Javascript harus diaktifkan. Lihat halaman Bantuan browser Anda untuk petunjuk.

Konvensi Dokumen

Contoh skrip visual kustom

Menggunakan kerangka Hudi di AWS Glue Studio