Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.
Menggunakan kerangka Delta Lake di AWS Glue
AWSGlue 3.0 dan yang lebih baru mendukung kerangka Linux Foundation Delta Lake. Delta Lake adalah kerangka penyimpanan data lake sumber terbuka yang membantu Anda melakukan transaksi ACID, menskalakan penanganan metadata, dan menyatukan streaming dan pemrosesan data batch. Topik ini mencakup fitur yang tersedia untuk menggunakan data Anda di AWS Glue saat Anda mengangkut atau menyimpan data Anda di tabel Delta Lake. Untuk mempelajari lebih lanjut tentang Danau Delta, lihat dokumentasi resmi Danau Delta
Anda dapat menggunakan AWS Glue untuk melakukan operasi baca dan tulis pada tabel Delta Lake di Amazon S3, atau bekerja dengan tabel Delta Lake menggunakan AWS Glue Data Catalog. Operasi tambahan seperti insert, update, dan Table batch read and writeDeltaTable.forPath
Untuk informasi lebih lanjut tentang perpustakaan Delta Lake Python, lihat dokumentasi Python Delta Lake.
Tabel berikut mencantumkan versi Delta Lake yang disertakan dalam setiap versi AWS Glue.
AWSVersi Glue | Versi Delta Lake yang didukung |
---|---|
4.0 | 2.1.0 |
3.0 | 1.0.0 |
Untuk mempelajari lebih lanjut tentang framework data lake yang didukung AWS Glue, lihatMenggunakan kerangka kerja data lake dengan pekerjaan AWS Glue ETL.
Mengaktifkan Delta Lake untuk Glue AWS
Untuk mengaktifkan Delta Lake for AWS Glue, selesaikan tugas-tugas berikut:
-
Tentukan
delta
sebagai nilai untuk parameter--datalake-formats
pekerjaan. Untuk informasi selengkapnya, lihat Menggunakan parameter pekerjaan dalam pekerjaan AWS Glue. -
Buat kunci bernama
--conf
untuk pekerjaan AWS Glue Anda, dan atur ke nilai berikut. Atau, Anda dapat mengatur konfigurasi berikut menggunakanSparkConf
skrip Anda. Pengaturan ini membantu Apache Spark menangani tabel Delta Lake dengan benar.spark.sql.extensions=io.delta.sql.DeltaSparkSessionExtension --conf spark.sql.catalog.spark_catalog=org.apache.spark.sql.delta.catalog.DeltaCatalog --conf spark.delta.logStore.class=org.apache.spark.sql.delta.storage.S3SingleDriverLogStore
Dukungan izin Lake Formation untuk tabel Delta diaktifkan secara default untuk AWS Glue 4.0. Tidak diperlukan konfigurasi tambahan untuk membaca/menulis ke tabel Delta yang terdaftar di Lake Formation. Untuk membaca tabel Delta terdaftar, peran IAM AWS Glue job harus memiliki izin SELECT. Untuk menulis ke tabel Delta terdaftar, peran IAM AWS Glue job harus memiliki izin SUPER. Untuk mempelajari lebih lanjut tentang mengelola izin Lake Formation, lihat Memberikan dan mencabut izin pada sumber daya Katalog Data.
Menggunakan versi Delta Lake yang berbeda
Untuk menggunakan versi danau Delta yang tidak didukung AWS Glue, tentukan file JAR Delta Lake Anda sendiri menggunakan parameter --extra-jars
pekerjaan. Jangan sertakan delta
sebagai nilai untuk parameter --datalake-formats
pekerjaan. Untuk menggunakan pustaka Delta Lake Python dalam kasus ini, Anda harus menentukan file JAR perpustakaan menggunakan parameter pekerjaan--extra-py-files
. Pustaka Python dikemas dalam file JAR Delta Lake.
Contoh: Tulis tabel Delta Lake ke Amazon S3 dan daftarkan ke Katalog Data AWS Glue
Skrip AWS Glue ETL berikut menunjukkan cara menulis tabel Delta Lake ke Amazon S3 dan mendaftarkan tabel ke Katalog Data Glue. AWS
Contoh: Baca tabel Delta Lake dari Amazon S3 menggunakan Katalog Data AWS Glue
Skrip AWS Glue ETL berikut membaca tabel Delta Lake yang Anda buat. Contoh: Tulis tabel Delta Lake ke Amazon S3 dan daftarkan ke Katalog Data AWS Glue
Contoh: Masukkan DataFrame
ke dalam tabel Delta Lake di Amazon S3 menggunakan AWS Glue Data Catalog
Contoh ini menyisipkan data ke dalam tabel Delta Lake yang Anda buat. Contoh: Tulis tabel Delta Lake ke Amazon S3 dan daftarkan ke Katalog Data AWS Glue
catatan
Contoh ini mengharuskan Anda untuk mengatur parameter --enable-glue-datacatalog
pekerjaan untuk menggunakan Katalog Data AWS Glue sebagai metastore Apache Spark Hive. Untuk mempelajari selengkapnya, lihat Menggunakan parameter pekerjaan dalam pekerjaan AWS Glue.
Contoh: Membaca tabel Delta Lake dari Amazon S3 menggunakan Spark API
Contoh ini membaca tabel Delta Lake dari Amazon S3 menggunakan Spark API.
Contoh: Tulis tabel Delta Lake ke Amazon S3 menggunakan Spark
Contoh ini menulis tabel Delta Lake ke Amazon S3 menggunakan Spark.
Contoh: Membaca dan menulis tabel Delta Lake dengan kontrol izin Lake Formation
Contoh ini membaca dan menulis tabel Danau Delta dengan kontrol izin Lake Formation.
-
Buat tabel Delta dan daftarkan di Lake Formation
-
Untuk mengaktifkan kontrol izin Lake Formation, Anda harus terlebih dahulu mendaftarkan tabel jalur Amazon S3 di Lake Formation. Untuk informasi selengkapnya, lihat Mendaftarkan lokasi Amazon S3. Anda dapat mendaftarkannya baik dari konsol Lake Formation atau dengan menggunakan AWS CLI:
aws lakeformation register-resource --resource-arn arn:aws:s3:::<s3-bucket>/<s3-folder> --use-service-linked-role --region <REGION>
Setelah Anda mendaftarkan lokasi Amazon S3, tabel AWS Glue apa pun yang menunjuk ke lokasi (atau lokasi turunannya) akan mengembalikan nilai
IsRegisteredWithLakeFormation
parameter sebagai true dalam panggilan.GetTable
-
Buat tabel Delta yang menunjuk ke jalur Amazon S3 terdaftar melalui Spark:
catatan
Berikut ini adalah contoh Python.
dataFrame.write \ .format("delta") \ .mode("overwrite") \ .partitionBy("<your_partitionkey_field>") \ .save("s3://<the_s3_path>")
Setelah data ditulis ke Amazon S3, gunakan crawler AWS Glue untuk membuat tabel katalog Delta baru. Untuk informasi selengkapnya, lihat Memperkenalkan dukungan tabel Delta Lake asli dengan crawler AWS Glue
. Anda juga dapat membuat tabel secara manual melalui AWS Glue
CreateTable
API.
-
Berikan izin Formasi Lake untuk peran IAM pekerjaan AWS Glue. Anda dapat memberikan izin dari konsol Lake Formation, atau menggunakan AWS CLI. Untuk informasi selengkapnya, lihat Memberikan izin tabel menggunakan konsol Lake Formation dan metode sumber daya bernama
Baca tabel Delta yang terdaftar di Lake Formation. Kode ini sama dengan membaca tabel Delta yang tidak terdaftar. Perhatikan bahwa peran IAM AWS Glue job harus memiliki izin SELECT agar pembacaan berhasil.
# Example: Read a Delta Lake table from Glue Data Catalog df = glueContext.create_data_frame.from_catalog( database="<your_database_name>", table_name="<your_table_name>", additional_options=additional_options )
-
Tulis ke tabel Delta yang terdaftar di Lake Formation. Kode ini sama dengan menulis ke tabel Delta yang tidak terdaftar. Perhatikan bahwa peran IAM AWS Glue job harus memiliki izin SUPER agar penulisan berhasil.
Secara default AWS Glue menggunakan
Append
sebagai SaveMode. Anda dapat mengubahnya dengan mengatur opsi SaveMode di.additional_options
Untuk informasi tentang dukungan SaveMode di tabel Delta, lihat Menulis ketabel. glueContext.write_data_frame.from_catalog( frame=dataFrame, database="<your_database_name>", table_name="<your_table_name>", additional_options=additional_options )