Mengaktifkan Gunung Es Contoh: Tulis Iceberg Contoh: Baca Iceberg Contoh: Masukkan ke dalam tabel Iceberg Contoh: Membaca tabel Iceberg menggunakan Spark Contoh: Membaca dan menulis tabel Gunung Es dengan kontrol izin Lake Formation

Menggunakan kerangka Iceberg di Glue AWS

AWS Glue 3.0 dan yang lebih baru mendukung kerangka Apache Iceberg untuk data lake. Iceberg menyediakan format tabel kinerja tinggi yang bekerja seperti tabel SQL. Topik ini mencakup fitur yang tersedia untuk menggunakan data Anda di AWS Glue saat Anda mengangkut atau menyimpan data Anda dalam tabel Gunung Es. Untuk mempelajari lebih lanjut tentang Iceberg, lihat dokumentasi resmi Apache Iceberg.

Anda dapat menggunakan AWS Glue untuk melakukan operasi baca dan tulis pada tabel Iceberg di Amazon S3, atau bekerja dengan tabel Iceberg menggunakan AWS Glue Data Catalog. Operasi tambahan termasuk insert dan semua Spark Queries Spark Write juga didukung. Pembaruan tidak didukung untuk tabel Iceberg.

catatan

ALTER TABLE … RENAME TOtidak tersedia untuk Apache Iceberg 0.13.1 untuk Glue 3.0. AWS

Tabel berikut mencantumkan versi Iceberg yang disertakan dalam setiap versi AWS Glue.

AWS Versi Glue	Versi Iceberg yang didukung
5.0	1.6.1
4.0	1.0.0
3.0	0.13.1

Untuk mempelajari lebih lanjut tentang framework data lake yang didukung AWS Glue, lihatMenggunakan kerangka kerja data lake dengan pekerjaan AWS Glue ETL.

Mengaktifkan kerangka Iceberg

Untuk mengaktifkan Iceberg for AWS Glue, selesaikan tugas-tugas berikut:

Tentukan iceberg sebagai nilai untuk parameter --datalake-formats pekerjaan. Untuk informasi selengkapnya, lihat Menggunakan parameter pekerjaan dalam pekerjaan AWS Glue.
Buat kunci bernama --conf untuk pekerjaan AWS Glue Anda, dan atur ke nilai berikut. Atau, Anda dapat mengatur konfigurasi berikut menggunakan SparkConf skrip Anda. Pengaturan ini membantu Apache Spark menangani tabel Iceberg dengan benar.
```
spark.sql.extensions=org.apache.iceberg.spark.extensions.IcebergSparkSessionExtensions 
--conf spark.sql.catalog.glue_catalog=org.apache.iceberg.spark.SparkCatalog 
--conf spark.sql.catalog.glue_catalog.warehouse=s3://<your-warehouse-dir>/ 
--conf spark.sql.catalog.glue_catalog.catalog-impl=org.apache.iceberg.aws.glue.GlueCatalog 
--conf spark.sql.catalog.glue_catalog.io-impl=org.apache.iceberg.aws.s3.S3FileIO
```
Jika Anda membaca atau menulis ke tabel Gunung Es yang terdaftar di Lake Formation, ikuti panduan di Menggunakan AWS Glue dengan AWS Lake Formation kontrol akses berbutir halus AWS Glue 5.0 dan yang lebih baru. Di AWS Glue 4.0, tambahkan konfigurasi berikut untuk mengaktifkan dukungan Lake Formation.
```
--conf spark.sql.catalog.glue_catalog.glue.lakeformation-enabled=true
--conf spark.sql.catalog.glue_catalog.glue.id=<table-catalog-id>
```
Jika Anda menggunakan AWS Glue 3.0 dengan Iceberg 0.13.1, Anda harus mengatur konfigurasi tambahan berikut untuk menggunakan pengelola kunci Amazon DynamoDB untuk memastikan transaksi atom. AWS Glue 4.0 atau yang lebih baru menggunakan penguncian optimis secara default. Untuk informasi selengkapnya, lihat AWS Integrasi Gunung Es dalam dokumentasi resmi Apache Iceberg.
```
--conf spark.sql.catalog.glue_catalog.lock-impl=org.apache.iceberg.aws.glue.DynamoLockManager 
--conf spark.sql.catalog.glue_catalog.lock.table=<your-dynamodb-table-name>
```

Menggunakan versi Iceberg yang berbeda

Untuk menggunakan versi Iceberg yang tidak didukung AWS Glue, tentukan file Iceberg JAR Anda sendiri menggunakan parameter pekerjaan. --extra-jars Jangan sertakan iceberg sebagai nilai untuk --datalake-formats parameter.

Mengaktifkan enkripsi untuk tabel Iceberg

catatan

Tabel gunung es memiliki mekanisme sendiri untuk mengaktifkan enkripsi sisi server. Anda harus mengaktifkan konfigurasi ini selain konfigurasi keamanan AWS Glue.

Untuk mengaktifkan enkripsi sisi server pada tabel Iceberg, tinjau panduan dari dokumentasi Iceberg.

Contoh: Tulis tabel Gunung Es ke Amazon S3 dan daftarkan ke Katalog Data Glue AWS

Contoh skrip ini menunjukkan cara menulis tabel Iceberg ke Amazon S3. Contoh menggunakan Iceberg AWS Integrations untuk mendaftarkan tabel ke AWS Glue Data Catalog.

Atau, Anda dapat menulis tabel Iceberg ke Amazon S3 dan Katalog Data menggunakan metode Spark.

Prasyarat: Anda perlu menyediakan katalog untuk perpustakaan Iceberg untuk digunakan. Saat menggunakan AWS Glue Data Catalog, AWS Glue membuatnya mudah. Katalog Data AWS Glue sudah dikonfigurasi sebelumnya untuk digunakan oleh pustaka Spark sebagai. glue_catalog Tabel Katalog Data diidentifikasi oleh a databaseName dan atableName. Untuk informasi selengkapnya tentang Katalog Data AWS Glue, lihatPenemuan dan katalogisasi data di AWS Glue.

Jika Anda tidak menggunakan Katalog Data AWS Glue, Anda harus menyediakan katalog melalui Spark APIs. Untuk informasi selengkapnya, lihat Konfigurasi Spark di dokumentasi Iceberg.

Contoh ini menulis tabel Iceberg ke Amazon S3 dan Katalog Data menggunakan Spark.

Contoh: Membaca tabel Gunung Es dari Amazon S3 menggunakan Katalog Data Glue AWS

Contoh ini membaca tabel Iceberg yang Anda buat. Contoh: Tulis tabel Gunung Es ke Amazon S3 dan daftarkan ke Katalog Data Glue AWS

Contoh: Masukkan `DataFrame` ke dalam tabel Iceberg di Amazon S3 menggunakan Glue Data Catalog AWS

Contoh ini menyisipkan data ke dalam tabel Iceberg yang Anda buat. Contoh: Tulis tabel Gunung Es ke Amazon S3 dan daftarkan ke Katalog Data Glue AWS

catatan

Contoh ini mengharuskan Anda untuk mengatur parameter --enable-glue-datacatalog pekerjaan untuk menggunakan Katalog Data AWS Glue sebagai metastore Apache Spark Hive. Untuk mempelajari selengkapnya, lihat Menggunakan parameter pekerjaan dalam pekerjaan AWS Glue.

Contoh: Membaca tabel Iceberg dari Amazon S3 menggunakan Spark

Jika Anda tidak menggunakan Katalog Data AWS Glue, Anda harus menyediakan katalog melalui Spark APIs. Untuk informasi selengkapnya, lihat Konfigurasi Spark di dokumentasi Iceberg.

Contoh ini membaca tabel Iceberg di Amazon S3 dari Katalog Data menggunakan Spark.

Contoh: Membaca dan menulis tabel Gunung Es dengan kontrol izin Lake Formation

Contoh ini membaca dan menulis tabel Gunung Es dengan kontrol izin Lake Formation.

catatan

Contoh ini hanya berfungsi di AWS Glue 4.0. Di AWS Glue 5.0 dan yang lebih baru, ikuti panduan diMenggunakan AWS Glue dengan AWS Lake Formation kontrol akses berbutir halus.

Buat tabel Gunung Es dan daftarkan di Lake Formation:
1. Untuk mengaktifkan kontrol izin Lake Formation, Anda harus terlebih dahulu mendaftarkan tabel jalur Amazon S3 di Lake Formation. Untuk informasi selengkapnya, lihat Mendaftarkan lokasi Amazon S3. Anda dapat mendaftarkannya baik dari konsol Lake Formation atau dengan menggunakan AWS CLI:
```
aws lakeformation register-resource --resource-arn arn:aws:s3:::<s3-bucket>/<s3-folder> --use-service-linked-role --region <REGION>
```
  Setelah Anda mendaftarkan lokasi Amazon S3, tabel AWS Glue apa pun yang menunjuk ke lokasi (atau lokasi turunan mana pun) akan mengembalikan nilai IsRegisteredWithLakeFormation parameter sebagai true dalam panggilan. GetTable
2. Buat tabel Iceberg yang menunjuk ke jalur terdaftar melalui Spark SQL:
  
  catatan
  Berikut ini adalah contoh Python.
```
dataFrame.createOrReplaceTempView("tmp_<your_table_name>")

query = f"""
CREATE TABLE glue_catalog.<your_database_name>.<your_table_name>
USING iceberg
AS SELECT * FROM tmp_<your_table_name>
"""
spark.sql(query)
```
  Anda juga dapat membuat tabel secara manual melalui AWS Glue CreateTable API. Untuk informasi selengkapnya, lihat Membuat tabel Apache Iceberg.
  
  catatan
  UpdateTableAPI saat ini tidak mendukung format tabel Iceberg sebagai masukan untuk operasi.
Berikan izin Formasi Danau untuk peran IAM pekerjaan. Anda dapat memberikan izin dari konsol Lake Formation, atau menggunakan AWS CLI. Untuk informasi lebih lanjut, lihat: https://docs.aws.amazon.com/lake-formation/ latest/dg/granting -table-permissions.html

Baca tabel Gunung Es yang terdaftar di Lake Formation. Kode ini sama dengan membaca tabel Iceberg yang tidak terdaftar. Perhatikan bahwa peran IAM AWS Glue job Anda harus memiliki izin SELECT agar pembacaan berhasil.


# Example: Read an Iceberg table from the AWS Glue Data Catalog
from awsglue.context import GlueContextfrom pyspark.context import SparkContext

sc = SparkContext()
glueContext = GlueContext(sc)

df = glueContext.create_data_frame.from_catalog(
    database="<your_database_name>",
    table_name="<your_table_name>",
    additional_options=additional_options
)

Tulis ke meja Gunung Es yang terdaftar di Lake Formation. Kode ini sama dengan menulis ke tabel Iceberg yang tidak terdaftar. Perhatikan bahwa peran IAM AWS Glue job Anda harus memiliki izin SUPER agar penulisan berhasil.
```
glueContext.write_data_frame.from_catalog(
    frame=dataFrame,
    database="<your_database_name>",
    table_name="<your_table_name>",
    additional_options=additional_options
)
```

Awas Javascript dinonaktifkan atau tidak tersedia di browser Anda.

Untuk menggunakan Dokumentasi AWS, Javascript harus diaktifkan. Lihat halaman Bantuan browser Anda untuk petunjuk.

Konvensi Dokumen

Danau Delta

Dukungan Katalog Data untuk pekerjaan Spark SQL

Menggunakan kerangka Iceberg di Glue AWS

catatan

Mengaktifkan kerangka Iceberg

catatan

Contoh: Tulis tabel Gunung Es ke Amazon S3 dan daftarkan ke Katalog Data Glue AWS

Contoh: Membaca tabel Gunung Es dari Amazon S3 menggunakan Katalog Data Glue AWS

Contoh: Masukkan DataFrame ke dalam tabel Iceberg di Amazon S3 menggunakan Glue Data Catalog AWS

catatan

Contoh: Membaca tabel Iceberg dari Amazon S3 menggunakan Spark

Contoh: Membaca dan menulis tabel Gunung Es dengan kontrol izin Lake Formation

catatan

catatan

catatan

Contoh: Masukkan `DataFrame` ke dalam tabel Iceberg di Amazon S3 menggunakan Glue Data Catalog AWS