Mengaktifkan Delta Lake Contoh: Tulis Danau Delta Contoh: Baca Danau Delta Contoh: Masukkan ke dalam tabel Delta Lake Contoh: Baca tabel Delta Lake menggunakan Spark Contoh: Tulis tabel Delta Lake menggunakan Spark Contoh: Membaca dan menulis tabel Delta Lake dengan kontrol izin Lake Formation

Menggunakan kerangka Delta Lake di AWS Glue

AWSGlue 3.0 dan yang lebih baru mendukung kerangka Linux Foundation Delta Lake. Delta Lake adalah kerangka penyimpanan data lake sumber terbuka yang membantu Anda melakukan transaksi ACID, menskalakan penanganan metadata, dan menyatukan streaming dan pemrosesan data batch. Topik ini mencakup fitur yang tersedia untuk menggunakan data Anda di AWS Glue saat Anda mengangkut atau menyimpan data Anda di tabel Delta Lake. Untuk mempelajari lebih lanjut tentang Danau Delta, lihat dokumentasi resmi Danau Delta.

Anda dapat menggunakan AWS Glue untuk melakukan operasi baca dan tulis pada tabel Delta Lake di Amazon S3, atau bekerja dengan tabel Delta Lake menggunakan AWS Glue Data Catalog. Operasi tambahan seperti insert, update, dan Table batch read and write juga didukung. Saat Anda menggunakan tabel Delta Lake, Anda juga memiliki opsi untuk menggunakan metode dari perpustakaan Delta Lake Python seperti. DeltaTable.forPath Untuk informasi lebih lanjut tentang perpustakaan Delta Lake Python, lihat dokumentasi Python Delta Lake.

Tabel berikut mencantumkan versi Delta Lake yang disertakan dalam setiap versi AWS Glue.

AWSVersi Glue	Versi Delta Lake yang didukung
4.0	2.1.0
3.0	1.0.0

Untuk mempelajari lebih lanjut tentang framework data lake yang didukung AWS Glue, lihatMenggunakan kerangka kerja data lake dengan pekerjaan AWS Glue ETL.

Mengaktifkan Delta Lake untuk Glue AWS

Untuk mengaktifkan Delta Lake for AWS Glue, selesaikan tugas-tugas berikut:

Tentukan delta sebagai nilai untuk parameter --datalake-formats pekerjaan. Untuk informasi selengkapnya, lihat Menggunakan parameter pekerjaan dalam pekerjaan AWS Glue.

Buat kunci bernama --conf untuk pekerjaan AWS Glue Anda, dan atur ke nilai berikut. Atau, Anda dapat mengatur konfigurasi berikut menggunakan SparkConf skrip Anda. Pengaturan ini membantu Apache Spark menangani tabel Delta Lake dengan benar.


spark.sql.extensions=io.delta.sql.DeltaSparkSessionExtension --conf spark.sql.catalog.spark_catalog=org.apache.spark.sql.delta.catalog.DeltaCatalog --conf spark.delta.logStore.class=org.apache.spark.sql.delta.storage.S3SingleDriverLogStore

Dukungan izin Lake Formation untuk tabel Delta diaktifkan secara default untuk AWS Glue 4.0. Tidak diperlukan konfigurasi tambahan untuk membaca/menulis ke tabel Delta yang terdaftar di Lake Formation. Untuk membaca tabel Delta terdaftar, peran IAM AWS Glue job harus memiliki izin SELECT. Untuk menulis ke tabel Delta terdaftar, peran IAM AWS Glue job harus memiliki izin SUPER. Untuk mempelajari lebih lanjut tentang mengelola izin Lake Formation, lihat Memberikan dan mencabut izin pada sumber daya Katalog Data.

Menggunakan versi Delta Lake yang berbeda

Untuk menggunakan versi danau Delta yang tidak didukung AWS Glue, tentukan file JAR Delta Lake Anda sendiri menggunakan parameter --extra-jars pekerjaan. Jangan sertakan delta sebagai nilai untuk parameter --datalake-formats pekerjaan. Untuk menggunakan pustaka Delta Lake Python dalam kasus ini, Anda harus menentukan file JAR perpustakaan menggunakan parameter pekerjaan--extra-py-files. Pustaka Python dikemas dalam file JAR Delta Lake.

Contoh: Tulis tabel Delta Lake ke Amazon S3 dan daftarkan ke Katalog Data AWS Glue

Skrip AWS Glue ETL berikut menunjukkan cara menulis tabel Delta Lake ke Amazon S3 dan mendaftarkan tabel ke Katalog Data Glue. AWS

Contoh: Baca tabel Delta Lake dari Amazon S3 menggunakan Katalog Data AWS Glue

Skrip AWS Glue ETL berikut membaca tabel Delta Lake yang Anda buat. Contoh: Tulis tabel Delta Lake ke Amazon S3 dan daftarkan ke Katalog Data AWS Glue

Contoh: Masukkan `DataFrame` ke dalam tabel Delta Lake di Amazon S3 menggunakan AWS Glue Data Catalog

Contoh ini menyisipkan data ke dalam tabel Delta Lake yang Anda buat. Contoh: Tulis tabel Delta Lake ke Amazon S3 dan daftarkan ke Katalog Data AWS Glue

catatan

Contoh ini mengharuskan Anda untuk mengatur parameter --enable-glue-datacatalog pekerjaan untuk menggunakan Katalog Data AWS Glue sebagai metastore Apache Spark Hive. Untuk mempelajari selengkapnya, lihat Menggunakan parameter pekerjaan dalam pekerjaan AWS Glue.

Contoh: Membaca tabel Delta Lake dari Amazon S3 menggunakan Spark API

Contoh ini membaca tabel Delta Lake dari Amazon S3 menggunakan Spark API.

Contoh: Tulis tabel Delta Lake ke Amazon S3 menggunakan Spark

Contoh ini menulis tabel Delta Lake ke Amazon S3 menggunakan Spark.

Contoh: Membaca dan menulis tabel Delta Lake dengan kontrol izin Lake Formation

Contoh ini membaca dan menulis tabel Danau Delta dengan kontrol izin Lake Formation.

Buat tabel Delta dan daftarkan di Lake Formation
1. Untuk mengaktifkan kontrol izin Lake Formation, Anda harus terlebih dahulu mendaftarkan tabel jalur Amazon S3 di Lake Formation. Untuk informasi selengkapnya, lihat Mendaftarkan lokasi Amazon S3. Anda dapat mendaftarkannya baik dari konsol Lake Formation atau dengan menggunakan AWS CLI:
```
aws lakeformation register-resource --resource-arn arn:aws:s3:::<s3-bucket>/<s3-folder> --use-service-linked-role --region <REGION>
```
  Setelah Anda mendaftarkan lokasi Amazon S3, tabel AWS Glue apa pun yang menunjuk ke lokasi (atau lokasi turunannya) akan mengembalikan nilai IsRegisteredWithLakeFormation parameter sebagai true dalam panggilan. GetTable
2. Buat tabel Delta yang menunjuk ke jalur Amazon S3 terdaftar melalui Spark:
  
  catatan
  Berikut ini adalah contoh Python.
```
dataFrame.write \
	.format("delta") \
	.mode("overwrite") \
	.partitionBy("<your_partitionkey_field>") \
	.save("s3://<the_s3_path>")
```
  Setelah data ditulis ke Amazon S3, gunakan crawler AWS Glue untuk membuat tabel katalog Delta baru. Untuk informasi selengkapnya, lihat Memperkenalkan dukungan tabel Delta Lake asli dengan crawler AWS Glue.
  
  Anda juga dapat membuat tabel secara manual melalui AWS Glue CreateTable API.
Berikan izin Formasi Lake untuk peran IAM pekerjaan AWS Glue. Anda dapat memberikan izin dari konsol Lake Formation, atau menggunakan AWS CLI. Untuk informasi selengkapnya, lihat Memberikan izin tabel menggunakan konsol Lake Formation dan metode sumber daya bernama

Baca tabel Delta yang terdaftar di Lake Formation. Kode ini sama dengan membaca tabel Delta yang tidak terdaftar. Perhatikan bahwa peran IAM AWS Glue job harus memiliki izin SELECT agar pembacaan berhasil.


# Example: Read a Delta Lake table from Glue Data Catalog

df = glueContext.create_data_frame.from_catalog(
    database="<your_database_name>",
    table_name="<your_table_name>",
    additional_options=additional_options
)

Tulis ke tabel Delta yang terdaftar di Lake Formation. Kode ini sama dengan menulis ke tabel Delta yang tidak terdaftar. Perhatikan bahwa peran IAM AWS Glue job harus memiliki izin SUPER agar penulisan berhasil.

Secara default AWS Glue menggunakan Append sebagai SaveMode. Anda dapat mengubahnya dengan mengatur opsi SaveMode di. additional_options Untuk informasi tentang dukungan SaveMode di tabel Delta, lihat Menulis ke tabel.
```
glueContext.write_data_frame.from_catalog(
    frame=dataFrame,
    database="<your_database_name>",
    table_name="<your_table_name>",
    additional_options=additional_options
)
```

Awas Javascript dinonaktifkan atau tidak tersedia di browser Anda.

Untuk menggunakan Dokumentasi AWS, Javascript harus diaktifkan. Lihat halaman Bantuan browser Anda untuk petunjuk.

Konvensi Dokumen

Hudi

Gunung es

Menggunakan kerangka Delta Lake di AWS Glue

Mengaktifkan Delta Lake untuk Glue AWS

Contoh: Tulis tabel Delta Lake ke Amazon S3 dan daftarkan ke Katalog Data AWS Glue

Contoh: Baca tabel Delta Lake dari Amazon S3 menggunakan Katalog Data AWS Glue

Contoh: Masukkan DataFrame ke dalam tabel Delta Lake di Amazon S3 menggunakan AWS Glue Data Catalog

catatan

Contoh: Membaca tabel Delta Lake dari Amazon S3 menggunakan Spark API

Contoh: Tulis tabel Delta Lake ke Amazon S3 menggunakan Spark

Contoh: Membaca dan menulis tabel Delta Lake dengan kontrol izin Lake Formation

catatan

Contoh: Masukkan `DataFrame` ke dalam tabel Delta Lake di Amazon S3 menggunakan AWS Glue Data Catalog