Gunakan cluster Delta Lake dengan Spark dan Glue AWS - Amazon EMR

Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.

Gunakan cluster Delta Lake dengan Spark dan Glue AWS

Untuk menggunakan AWS Glue Catalog sebagai tabel Metastore untuk Delta Lake, buat cluster dengan langkah-langkah berikut. Untuk informasi tentang menentukan klasifikasi Delta Lake menggunakan AWS Command Line Interface, lihat Menyediakan konfigurasi menggunakan AWS Command Line Interface saat Anda membuat klaster atau Menyediakan konfigurasi menggunakan Java SDK saat Anda membuat klaster.

Buat cluster Delta Lake
  1. Buat file, configurations.json, dengan konten berikut:

    [{"Classification":"delta-defaults", "Properties":{"delta.enabled":"true"}}, {"Classification":"spark-hive-site", "Properties":{"hive.metastore.client.factory.class":"com.amazonaws.glue.catalog.metastore.AWSGlueDataCatalogHiveClientFactory"}}]
  2. Buat cluster dengan konfigurasi berikut, ganti example Amazon S3 bucket path dan subnet ID dengan milik Anda sendiri.

    aws emr create-cluster --release-label emr-6.9.0 --applications Name=Spark --configurations file://delta_configurations.json --region us-east-1 --name My_Spark_Delta_Cluster --log-uri s3://amzn-s3-demo-bucket/ --instance-type m5.xlarge --instance-count 2 --service-role EMR_DefaultRole_V2 --ec2-attributes InstanceProfile=EMR_EC2_DefaultRole,SubnetId=subnet-1234567890abcdef0