Spark 및 AWS Glue와 함께 Delta Lake 클러스터 사용

AWS Glue 카탈로그를 Delta Lake 테이블의 메타스토어로 사용하려면 다음 단계를 수행하여 클러스터를 생성합니다. 를 사용하여 Delta Lake 분류를 지정하는 방법에 대한 자세한 내용은 클러스터를 생성할 AWS Command Line Interface 때를 사용하여 구성 제공 또는 클러스터를 생성할 때 Java SDK를 사용하여 구성 제공을 AWS Command Line Interface참조하세요. https://docs.aws.amazon.com/emr/latest/ReleaseGuide/emr-configure-apps-create-cluster.html#emr-configure-apps-create-cluster-sdk

Delta Lake 클러스터 생성

다음 콘텐츠가 포함된 configurations.json 파일을 생성합니다.



[{"Classification":"delta-defaults",  
"Properties":{"delta.enabled":"true"}},
{"Classification":"spark-hive-site",
"Properties":{"hive.metastore.client.factory.class":"com.amazonaws.glue.catalog.metastore.AWSGlueDataCatalogHiveClientFactory"}}]

다음과 같은 구성으로 클러스터를 생성하고 example Amazon S3 bucket path 및 subnet ID를 사용자 정보로 바꿉니다.



aws emr create-cluster 
    --release-label  emr-6.9.0  
    --applications Name=Spark  
    --configurations file://delta_configurations.json 
    --region us-east-1  
    --name My_Spark_Delta_Cluster  
    --log-uri  s3://amzn-s3-demo-bucket/  
    --instance-type m5.xlarge  
    --instance-count 2   
    --service-role EMR_DefaultRole_V2  
    --ec2-attributes  InstanceProfile=EMR_EC2_DefaultRole,SubnetId=subnet-1234567890abcdef0

javascript가 브라우저에서 비활성화되거나 사용이 불가합니다.

AWS 설명서를 사용하려면 Javascript가 활성화되어야 합니다. 지침을 보려면 브라우저의 도움말 페이지를 참조하십시오.

문서 규칙

Delta Lake와 Spark

고려 사항