Utilizzo di un cluster Delta Lake con Spark e AWS Glue - Amazon EMR

Utilizzo di un cluster Delta Lake con Spark e AWS Glue

Per utilizzare AWS Glue Catalog come metastore per le tabelle Delta Lake, crea un cluster con i passaggi seguenti. Per informazioni su come specificare la classificazione Delta Lake utilizzando la AWS Command Line Interface, consulta la sezione Fornitura di una configurazione nella AWS Command Line Interface quando si crea un cluster o Fornitura di una configurazione utilizzando l'SDK Java quando si crea un cluster.

Creazione di un cluster Delta Lake
  1. Creare un file, configurations.json, con i seguenti contenuti:

    [{"Classification":"delta-defaults", "Properties":{"delta.enabled":"true"}}, {"Classification":"spark-hive-site", "Properties":{"hive.metastore.client.factory.class":"com.amazonaws.glue.catalog.metastore.AWSGlueDataCatalogHiveClientFactory"}}]
  2. Crea un cluster con la seguente configurazione, sostituendo example Amazon S3 bucket path e subnet ID con i tuoi valori.

    aws emr create-cluster --release-label emr-6.9.0 --applications Name=Spark --configurations file://delta_configurations.json --region us-east-1 --name My_Spark_Delta_Cluster --log-uri s3://DOC-EXAMPLE-BUCKET/ --instance-type m5.xlarge --instance-count 2 --service-role EMR_DefaultRole_V2 --ec2-attributes InstanceProfile=EMR_EC2_DefaultRole,SubnetId=subnet-1234567890abcdef0