Akses tanpa filter Lake Formation untuk EMR Tanpa Server - Amazon EMR

Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.

Akses tanpa filter Lake Formation untuk EMR Tanpa Server

Dengan Amazon EMR merilis 7.8.0 dan yang lebih tinggi, Anda dapat memanfaatkan Lake AWS Formation with Glue Data Catalog di mana peran runtime pekerjaan memiliki izin tabel lengkap tanpa batasan kontrol akses berbutir halus. Kemampuan ini memungkinkan Anda membaca dan menulis ke tabel yang dilindungi oleh Lake Formation dari batch EMR Serverless Spark dan pekerjaan interaktif Anda. Lihat bagian berikut untuk mempelajari lebih lanjut tentang Lake Formation dan cara menggunakannya dengan EMR Tanpa Server.

Menggunakan Lake Formation dengan akses meja penuh

Anda dapat mengakses tabel katalog Glue Data yang dilindungi AWS Lake Formation dari pekerjaan EMR Serverless Spark atau sesi interaktif di mana peran runtime pekerjaan memiliki akses tabel penuh. Anda tidak harus mengaktifkan AWS Lake Formation pada aplikasi EMR Serverless. Ketika pekerjaan Spark dikonfigurasi untuk Akses Tabel Penuh (FTA), kredenal AWS Lake Formation digunakan untuk data read/write S3 untuk tabel terdaftar AWS Lake Formation, sedangkan kredensial peran runtime pekerjaan akan digunakan untuk tabel yang tidak terdaftar di Lake Formation. read/write AWS

penting

Jangan aktifkan AWS Lake Formation untuk kontrol akses berbutir halus. Pekerjaan tidak dapat secara bersamaan menjalankan Full Table Access (FTA) dan Fine-Grained Access Control (FGAC) pada cluster EMR atau aplikasi yang sama.

Langkah 1: Aktifkan Akses Tabel Penuh di Lake Formation

Untuk menggunakan mode Akses Tabel Penuh (FTA), Anda harus mengizinkan mesin kueri pihak ketiga mengakses data tanpa validasi tag sesi IAM di Lake Formation AWS . Untuk mengaktifkan, ikuti langkah-langkah dalam Integrasi aplikasi untuk akses tabel penuh.

catatan

Saat mengakses tabel lintas akun, akses tabel penuh harus diaktifkan di akun produsen dan konsumen. Dengan cara yang sama, saat mengakses tabel lintas wilayah, pengaturan ini harus diaktifkan di wilayah produsen dan konsumen.

Langkah 2: Siapkan izin IAM untuk peran runtime pekerjaan

Untuk akses baca atau tulis ke data dasar, selain izin Lake Formation, peran runtime pekerjaan memerlukan izin lakeformation:GetDataAccess IAM. Dengan izin ini, Lake Formation memberikan permintaan kredensyal sementara untuk mengakses data.

Berikut ini adalah contoh kebijakan tentang cara memberikan izin IAM untuk mengakses skrip di Amazon S3, mengunggah log ke S3, izin AWS Glue API, dan izin untuk mengakses Lake Formation.

JSON
{ "Version": "2012-10-17", "Statement": [ { "Sid": "ScriptAccess", "Effect": "Allow", "Action": [ "s3:GetObject" ], "Resource": [ "arn:aws:s3:::*.amzn-s3-demo-bucket/scripts" ] }, { "Sid": "LoggingAccess", "Effect": "Allow", "Action": [ "s3:PutObject" ], "Resource": [ "arn:aws:s3:::amzn-s3-demo-bucket/logs/*" ] }, { "Sid": "GlueCatalogAccess", "Effect": "Allow", "Action": [ "glue:Get*", "glue:Create*", "glue:Update*" ], "Resource": [ "*" ] }, { "Sid": "LakeFormationAccess", "Effect": "Allow", "Action": [ "lakeformation:GetDataAccess" ], "Resource": [ "*" ] } ] }

Langkah 2.1 Konfigurasikan izin Lake Formation

  • Pekerjaan percikan yang membaca data dari S3 memerlukan izin Lake Formation SELECT.

  • Memicu pekerjaan yang write/delete data di S3 memerlukan izin Lake Formation ALL (SUPER).

  • Pekerjaan Spark yang berinteraksi dengan katalog Glue Data memerlukan izin DESCRIPTION, ALTER, DROP yang sesuai.

Untuk informasi selengkapnya, lihat Memberikan izin pada sumber daya Katalog Data.

Langkah 3: Inisialisasi sesi Spark untuk Akses Tabel Penuh menggunakan Lake Formation

Prasyarat

AWS Glue Data Catalog harus dikonfigurasi sebagai metastore untuk mengakses tabel Lake Formation.

Atur pengaturan berikut untuk mengkonfigurasi katalog Glue sebagai metastore:

--conf spark.sql.catalogImplementation=hive --conf spark.hive.metastore.client.factory.class=com.amazonaws.glue.catalog.metastore.AWSGlueDataCatalogHiveClientFactory

Untuk informasi selengkapnya tentang mengaktifkan Katalog Data untuk EMR Tanpa Server, lihat konfigurasi Metastore untuk EMR Tanpa Server.

Untuk mengakses tabel yang terdaftar dengan AWS Lake Formation, konfigurasi berikut perlu disetel selama inisialisasi Spark untuk mengonfigurasi Spark agar menggunakan kredenal Lake Formation AWS .

Hive
‐‐conf spark.hadoop.fs.s3.credentialsResolverClass=com.amazonaws.glue.accesscontrol.AWSLakeFormationCredentialResolver --conf spark.hadoop.fs.s3.useDirectoryHeaderAsFolderObject=true --conf spark.hadoop.fs.s3.folderObject.autoAction.disabled=true --conf spark.sql.catalog.skipLocationValidationOnCreateTable.enabled=true --conf spark.sql.catalog.createDirectoryAfterTable.enabled=true --conf spark.sql.catalog.dropDirectoryBeforeTable.enabled=true
Iceberg
--conf spark.sql.catalog.spark_catalog=org.apache.iceberg.spark.SparkSessionCatalog --conf spark.sql.catalog.spark_catalog.warehouse=S3_DATA_LOCATION --conf spark.sql.catalog.spark_catalog.client.region=REGION --conf spark.sql.catalog.spark_catalog.type=glue --conf spark.sql.catalog.spark_catalog.glue.account-id=ACCOUNT_ID --conf spark.sql.catalog.spark_catalog.glue.lakeformation-enabled=true --conf spark.sql.catalog.dropDirectoryBeforeTable.enabled=true
  • spark.hadoop.fs.s3.credentialsResolverClass=com.amazonaws.glue.accesscontrol.AWSLakeFormationCredentialResolver: Konfigurasikan Sistem File EMR (EMRFS) untuk menggunakan kredenal Lake AWS Formation S3 untuk tabel terdaftar Lake Formation. Jika tabel tidak terdaftar, gunakan kredenal peran runtime pekerjaan.

  • spark.hadoop.fs.s3.useDirectoryHeaderAsFolderObject=truedanspark.hadoop.fs.s3.folderObject.autoAction.disabled=true: Konfigurasikan EMRFS untuk menggunakan aplikasi header tipe konten/x-directory alih-alih akhiran $folder$ saat membuat folder S3. Ini diperlukan saat membaca tabel Lake Formation, karena kredenal Lake Formation tidak mengizinkan membaca folder tabel dengan akhiran $folder$.

  • spark.sql.catalog.skipLocationValidationOnCreateTable.enabled=true: Konfigurasikan Spark untuk melewati validasi kekosongan lokasi tabel sebelum pembuatan. Ini diperlukan untuk tabel terdaftar Lake Formation, karena kredensyal Lake Formation untuk memverifikasi lokasi kosong hanya tersedia setelah pembuatan tabel Katalog Data Glue. Tanpa konfigurasi ini, kredenal peran runtime job akan memvalidasi lokasi tabel kosong.

  • spark.sql.catalog.createDirectoryAfterTable.enabled=true: Konfigurasikan Spark untuk membuat folder Amazon S3 setelah pembuatan tabel di metastore Hive. Ini diperlukan untuk tabel terdaftar Lake Formation, karena kredensyal Lake Formation untuk membuat folder S3 hanya tersedia setelah pembuatan tabel Glue Data Catalog.

  • spark.sql.catalog.dropDirectoryBeforeTable.enabled=true: Konfigurasikan Spark untuk menjatuhkan folder S3 sebelum penghapusan tabel di metastore Hive. Ini diperlukan untuk tabel terdaftar Lake Formation, karena kredensyal Lake Formation untuk menjatuhkan folder S3 tidak tersedia setelah penghapusan tabel dari Katalog Data Glue.

  • spark.sql.catalog.<catalog>.glue.lakeformation-enabled=true: Konfigurasikan katalog Gunung Es untuk menggunakan kredenal AWS Lake Formation S3 untuk tabel terdaftar Lake Formation. Jika tabel tidak terdaftar, gunakan kredensil lingkungan default.

Konfigurasikan mode akses tabel penuh di SageMaker Unified Studio

Untuk mengakses tabel terdaftar Lake Formation dari sesi Spark interaktif di JupyterLab notebook, Anda harus menggunakan mode izin kompatibilitas. Gunakan perintah ajaib %%configure untuk mengatur konfigurasi Spark Anda. Pilih konfigurasi berdasarkan jenis tabel Anda:

For Hive tables
%%configure -f { "conf": { "spark.hadoop.fs.s3.credentialsResolverClass": "com.amazonaws.glue.accesscontrol.AWSLakeFormationCredentialResolver", "spark.hadoop.fs.s3.useDirectoryHeaderAsFolderObject": true, "spark.hadoop.fs.s3.folderObject.autoAction.disabled": true, "spark.sql.catalog.skipLocationValidationOnCreateTable.enabled": true, "spark.sql.catalog.createDirectoryAfterTable.enabled": true, "spark.sql.catalog.dropDirectoryBeforeTable.enabled": true } }
For Iceberg tables
%%configure -f { "conf": { "spark.sql.catalog.spark_catalog": "org.apache.iceberg.spark.SparkSessionCatalog", "spark.sql.catalog.spark_catalog.warehouse": "S3_DATA_LOCATION", "spark.sql.catalog.spark_catalog.client.region": "REGION", "spark.sql.catalog.spark_catalog.type": "glue", "spark.sql.catalog.spark_catalog.glue.account-id": "ACCOUNT_ID", "spark.sql.catalog.spark_catalog.glue.lakeformation-enabled": true, "spark.sql.catalog.dropDirectoryBeforeTable.enabled": true, } }

Ganti placeholder:

  • S3_DATA_LOCATION: Jalur ember S3 Anda

  • REGION: AWS wilayah (misalnya, us-east-1)

  • ACCOUNT_ID: ID AWS akun Anda

catatan

Anda harus mengatur konfigurasi ini sebelum menjalankan operasi Spark apa pun di buku catatan Anda.

Operasi yang Didukung

Operasi ini akan menggunakan kredensyal AWS Lake Formation untuk mengakses data tabel.

  • CREATE TABLE

  • ALTER TABLE

  • MASUKKAN KE

  • SISIPKAN TIMPA

  • UPDATE

  • BERGABUNG MENJADI

  • DELETE FROM

  • MENGANALISIS TABEL

  • MEJA PERBAIKAN

  • MEJA DROP

  • Permintaan sumber data percikan

  • Sumber data Spark menulis

catatan

Operasi yang tidak tercantum di atas akan terus menggunakan izin IAM untuk mengakses data tabel.

Pertimbangan

  • Jika tabel Hive dibuat menggunakan pekerjaan yang tidak mengaktifkan akses tabel penuh, dan tidak ada catatan yang disisipkan, pembacaan atau penulisan berikutnya dari pekerjaan dengan akses tabel penuh akan gagal. Ini karena EMR Spark tanpa akses tabel penuh menambahkan $folder$ akhiran ke nama folder tabel. Untuk mengatasi ini, Anda dapat:

    • Masukkan setidaknya satu baris ke dalam tabel dari pekerjaan yang tidak mengaktifkan FTA.

    • Konfigurasikan pekerjaan yang tidak mengaktifkan FTA untuk tidak menggunakan $folder$ akhiran dalam nama folder di S3. Ini dapat dicapai dengan mengatur konfigurasi spark.hadoop.fs.s3.useDirectoryHeaderAsFolderObject=true Spark.

    • Buat folder S3 di lokasi tabel s3://path/to/table/table_name menggunakan konsol S3 atau AWS AWS S3 CLI.

  • Akses Tabel Penuh bekerja secara eksklusif dengan EMR Filesystem (EMRFS). Sistem file S3A tidak kompatibel.

  • Akses Tabel Penuh didukung untuk tabel Hive dan Iceberg. Support untuk tabel Hudi dan Delta belum ditambahkan.

  • Pekerjaan yang mereferensikan tabel dengan aturan Lake Formation Fine-Grained Access Control (FGAC) atau Tampilan Katalog Data Glue akan gagal. Untuk menanyakan tabel dengan aturan FGAC atau Tampilan Katalog Data Glue, Anda perlu menggunakan mode FGAC. Anda dapat mengaktifkan mode FGAC dengan mengikuti langkah-langkah yang diuraikan dalam AWS dokumentasi: Menggunakan EMR Tanpa Server dengan Lake AWS Formation untuk kontrol akses berbutir halus.

  • Akses tabel penuh tidak mendukung Spark Streaming.

  • Saat menulis Spark DataFrame ke tabel Lake Formation, hanya mode APPEND yang didukung: df.write.mode("append").saveAsTable(table_name)