Amazon EMR on EKS에서 Delta Lake 사용 - 아마존 EMR

기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.

Amazon EMR on EKS에서 Delta Lake 사용

Amazon EMR on EKS 애플리케이션에서 Delta Lake를 사용하는 방법
  1. 애플리케이션 구성에서 Spark 작업을 제출하기 위해 작업 실행을 시작하는 경우 Delta Lake JAR 파일을 포함합니다.

    --job-driver '{"sparkSubmitJobDriver" : { "sparkSubmitParameters" : "--jars local:///usr/share/aws/delta/lib/delta-core.jar,local:///usr/share/aws/delta/lib/delta-storage.jar,local:///usr/share/aws/delta/lib/delta-storage-s3-dynamodb.jar"}}'
    참고

    Amazon EMR 릴리스 7.0.0 이상에서는 델타 레이크 3.0을 사용하며 이름이 로 변경되었습니다. delta-core.jar delta-spark.jar Amazon EMR 릴리스 7.0.0 이상을 사용하는 경우 다음 예와 같이 올바른 파일 이름을 사용해야 합니다.

    --jars local:///usr/share/aws/delta/lib/delta-spark.jar
  2. Delta Lake 추가 구성을 포함하고 AWS Glue Data Catalog를 메타스토어로 사용하십시오.

    --configuration-overrides '{ "applicationConfiguration": [ { "classification" : "spark-defaults", "properties" : { "spark.sql.extensions" : "io.delta.sql.DeltaSparkSessionExtension", "spark.sql.catalog.spark_catalog":"org.apache.spark.sql.delta.catalog.DeltaCatalog", "spark.hadoop.hive.metastore.client.factory.class":"com.amazonaws.glue.catalog.metastore.AWSGlueDataCatalogHiveClientFactory" } }]}'