Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.
Gunakan cluster Delta Lake dengan Spark dan Glue AWS
Untuk menggunakan AWS Glue Catalog sebagai tabel Metastore untuk Delta Lake, buat cluster dengan langkah-langkah berikut. Untuk informasi tentang menentukan klasifikasi Delta Lake menggunakan AWS Command Line Interface, lihat Menyediakan konfigurasi menggunakan AWS Command Line Interface saat Anda membuat klaster atau Menyediakan konfigurasi menggunakan Java SDK saat Anda membuat klaster.
Buat cluster Delta Lake
-
Buat file,
configurations.json
, dengan konten berikut:[{"Classification":"delta-defaults", "Properties":{"delta.enabled":"true"}}, {"Classification":"spark-hive-site", "Properties":{"hive.metastore.client.factory.class":"com.amazonaws.glue.catalog.metastore.AWSGlueDataCatalogHiveClientFactory"}}]
-
Buat cluster dengan konfigurasi berikut, ganti
example Amazon S3 bucket path
dansubnet ID
dengan milik Anda sendiri.aws emr create-cluster --release-label emr-6.9.0 --applications Name=Spark --configurations file://delta_configurations.json --region us-east-1 --name My_Spark_Delta_Cluster --log-uri
s3://amzn-s3-demo-bucket/
--instance-type m5.xlarge --instance-count 2 --service-role EMR_DefaultRole_V2 --ec2-attributes InstanceProfile=EMR_EC2_DefaultRole,SubnetId=subnet-1234567890abcdef0