Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.
Pertimbangan untuk Amazon EMR dengan Lake Formation
Pertimbangkan hal berikut saat menggunakan Amazon EMR dengan. AWS Lake Formation
Amazon EMR dengan Lake Formation tersedia di semua wilayah yang tersedia.
-
Amazon EMR mendukung kontrol akses berbutir halus melalui Lake Formation hanya untuk tabel Apache Hive dan Apache Iceberg. Format Apache Hive termasuk Parket, ORC, dan xSV.
-
Anda tidak dapat mematikan
DynamicResourceAllocation
untuk pekerjaan Lake Formation. -
Anda hanya dapat menggunakan Lake Formation dengan pekerjaan Spark.
-
Amazon EMR dengan Lake Formation hanya mendukung satu sesi Spark selama pekerjaan.
-
Amazon EMR dengan Lake Formation hanya mendukung kueri tabel lintas akun yang dibagikan melalui tautan sumber daya.
-
Berikut ini tidak didukung:
-
Kumpulan data terdistribusi yang tangguh (RDD)
-
Streaming percikan
-
Menulis dengan izin yang diberikan Lake Formation
-
Kontrol akses untuk kolom bersarang
-
-
Amazon EMR memblokir fungsionalitas yang mungkin merusak isolasi lengkap driver sistem, termasuk yang berikut ini:
-
UDTs, HiveUDFs, dan fungsi apa pun yang ditentukan pengguna yang melibatkan kelas khusus
-
Sumber data kustom
-
Pasokan stoples tambahan untuk ekstensi Spark, konektor, atau metastore
-
Perintah
ANALYZE TABLE
-
-
Untuk menegakkan kontrol akses,
EXPLAIN PLAN
dan operasi DDL sepertiDESCRIBE TABLE
tidak mengekspos informasi terbatas. -
Amazon EMR membatasi akses ke driver sistem Spark log pada aplikasi yang mendukung Lake Formation. Karena driver sistem berjalan dengan izin tinggi, peristiwa dan log yang dihasilkan driver sistem dapat mencakup informasi sensitif. Untuk mencegah pengguna atau kode yang tidak sah mengakses data sensitif ini, Amazon EMR menonaktifkan akses ke log driver sistem.
Log profil sistem selalu disimpan dalam penyimpanan terkelola - ini adalah pengaturan wajib yang tidak dapat dinonaktifkan. Log ini disimpan dengan aman dan dienkripsi menggunakan kunci KMS yang Dikelola Pelanggan atau kunci KMS Terkelola AWS .
Jika aplikasi EMR Amazon Anda berada dalam subnet pribadi dengan titik akhir VPC untuk Amazon S3 dan Anda melampirkan kebijakan titik akhir untuk mengontrol akses, sebelum pekerjaan Anda dapat mengirim data log ke AWS Amazon S3 Terkelola, Anda harus menyertakan izin yang dirinci dalam Penyimpanan terkelola dalam kebijakan VPC Anda ke titik akhir gateway S3. Untuk permintaan pemecahan masalah, hubungi AWS dukungan.
-
Jika Anda mendaftarkan lokasi tabel dengan Lake Formation, jalur akses data akan melewati kredensyal yang disimpan Lake Formation terlepas dari izin IAM untuk peran runtime pekerjaan Amazon EMR. Jika Anda salah mengonfigurasi peran yang terdaftar dengan lokasi tabel, pekerjaan yang dikirimkan yang menggunakan peran dengan izin IAM S3 ke lokasi tabel akan gagal.
-
Menulis ke tabel Lake Formation menggunakan izin IAM daripada izin yang diberikan Lake Formation. Jika peran runtime pekerjaan Anda memiliki izin S3 yang diperlukan, Anda dapat menggunakannya untuk menjalankan operasi penulisan.
Berikut ini adalah pertimbangan dan batasan saat menggunakan Apache Iceberg:
-
Anda hanya dapat menggunakan Apache Iceberg dengan katalog sesi dan tidak sewenang-wenang bernama katalog.
-
Tabel gunung es yang terdaftar di Lake Formation hanya mendukung tabel metadata
history
,,,,metadata_log_entries
snapshots
,files
dan.manifests
refs
Amazon EMR menyembunyikan kolom yang mungkin memiliki data sensitif, sepertipartitions
,, dan.path
summaries
Batasan ini tidak berlaku untuk tabel Gunung Es yang tidak terdaftar di Lake Formation. -
Tabel yang tidak Anda daftarkan di Lake Formation mendukung semua prosedur yang disimpan Gunung Es. Prosedur
register_table
danmigrate
prosedur tidak didukung untuk tabel apa pun. -
Kami menyarankan Anda menggunakan Iceberg DataFrameWriter V2 alih-alih V1.
-
EMR 7.10 menyediakan cara untuk beralih kembali RecordServer jika Anda ingin menggunakan fitur yang didukung oleh RecordServer, tetapi belum didukung oleh FGAC asli, seperti writeback ke tabel terdaftar Lake Formation. Untuk beralih kembali, tentukan konfigurasi berikut saat meluncurkan cluster.
{ "Classification": "spark-defaults", "Properties": { "spark.emr.lakeformation.legacy.enabled": "true" } }, { "Classification": "yarn-site", "Properties": { "spark.emr.lakeformation.legacy.enabled": "true" } }