Apache Spark - Amazon EMR

기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.

Apache Spark

Apache Spark는 Amazon EMR 클러스터에서 기계 학습, 스트림 처리 또는 그래픽 분석을 수행하는 데 도움이 되는 분산 처리 프레임워크 및 프로그래밍 모델입니다. Apache 하둡과 마찬가지로, Spark는 빅 데이터 워크로드에 일반적으로 사용되는 오픈 소스 분산형 처리 시스템입니다. 그러나 Spark는 Hadoop과 몇 가지 눈에 띄는 차이점이 있습니다. MapReduce Spark에는 최적화된 비순환 방향 그래프(DAG) 실행 엔진이 있고 메모리 안에 데이터를 능동적으로 캐시하므로 특히 특정 알고리즘 및 대화형 쿼리의 성능이 향상됩니다.

Spark는 기본적으로 Scala, Python 및 Java로 작성된 애플리케이션을 지원합니다. 여기에는 SQL용 여러 통합 라이브러리(Spark SQL), 기계 학습(MLlib), 스트림 처리(Spark streaming) 및 그래프 처리(GraphX)도 포함됩니다. 이러한 도구를 사용하면 다양한 사용 사례에 대해 Spark 프레임워크를 보다 쉽게 활용할 수 있습니다.

Amazon EMR 클러스터에 다른 Hadoop 애플리케이션과 함께 Spark를 설치할 수 있으며, Amazon EMR 파일 시스템(EMRFS)을 활용하여 Amazon S3에서 데이터에 직접 액세스할 수도 있습니다. 또한 Hive는 Spark와 통합되어 있어 HiveContext 객체를 사용하여 Spark를 사용하여 Hive 스크립트를 실행할 수 있습니다. Hive 컨텍스트는 spark-shell에 sqlContext로 포함됩니다.

Spark로 EMR 클러스터를 설정하고 샘플 데이터 세트를 분석하는 방법에 대한 예제 자습서는 뉴스 블로그의 자습서: Amazon EMR 시작하기를 참조하십시오. AWS

중요

Amazon EMR 릴리스 5.16.0부터 사용할 수 있는 Apache Spark 버전 2.3.1은 CVE-2018-8024CVE-2018-1334를 처리합니다. Spark의 이전 버전을 Spark 버전 2.3.1 이상으로 마이그레이션하는 것이 좋습니다.

다음 테이블에는 Amazon EMR이 Spark를 통해 설치하는 구성 요소와 함께 Amazon EMR 7.x 시리즈의 최신 릴리스에 포함된 Spark의 버전이 나열되어 있습니다.

이번 릴리스에서 Spark와 함께 설치된 구성 요소 버전은 릴리스 7.1.0 구성 요소 버전을 참조하십시오.

emr-7.1.0의 스파크 버전 정보
Amazon EMR 릴리스 레이블 Spark 버전 Spark와 함께 설치된 구성 요소

emr-7.1.0

Spark 3.5.0

delta, emrfs, emr-goodies, emr-ddb, emr-s3-select, hadoop-client, hadoop-hdfs-datanode, hadoop-hdfs-library, hadoop-hdfs-namenode, hadoop-httpfs-server, hadoop-kms-server, hadoop-yarn-nodemanager, hadoop-yarn-resourcemanager, hadoop-yarn-timeline-server, hudi, hudi-spark, iceberg, livy-server, nginx, r, spark-client, spark-history-server, spark-on-yarn, spark-yarn-slave

다음 테이블에는 Amazon EMR이 Spark를 통해 설치하는 구성 요소와 함께 Amazon EMR 6.x 시리즈의 최신 릴리스에 포함된 Spark의 버전이 나열되어 있습니다.

이 릴리스에서 Spark와 함께 설치된 구성 요소의 버전은 릴리스 6.15.0 구성 요소 버전을 참조하세요.

emr-6.15.0용 Spark 버전 정보
Amazon EMR 릴리스 레이블 Spark 버전 Spark와 함께 설치된 구성 요소

emr-6.15.0

Spark 3.4.1

aws-sagemaker-spark-sdk, delta, emrfs, emr-goodies, emr-ddb, emr-s3-select, hadoop-client, hadoop-hdfs-datanode, hadoop-hdfs-library, hadoop-hdfs-namenode, hadoop-httpfs-server, hadoop-kms-server, hadoop-yarn-nodemanager, hadoop-yarn-resourcemanager, hadoop-yarn-timeline-server, hudi, hudi-spark, iceberg, livy-server, nginx, r, spark-client, spark-history-server, spark-on-yarn, spark-yarn-slave

참고

Amazon EMR 릴리스 6.8.0은 Apache Spark 3.3.0과 함께 제공됩니다. 이번 Spark 릴리스에서는 Apache Log4j 2 및 log4j2.properties 파일을 사용하여 Spark 프로세스에서 Log4j를 구성합니다. 클러스터에서 Spark를 사용하거나 사용자 지정 구성 파라미터를 사용하여 EMR 클러스터를 생성하고 Amazon EMR 릴리스 6.8.0으로 업그레이드하려는 경우 Apache Log4j 2의 새로운 spark-log4j2 구성 분류 및 키 형식으로 마이그레이션해야 합니다. 자세한 정보는 Apache Log4j 1.x에서 Log4j 2.x로 마이그레이션을 참조하세요.

다음 테이블에는 Amazon EMR이 Spark를 통해 설치하는 구성 요소와 함께 Amazon EMR 5.x 시리즈의 최신 릴리스에 포함된 Spark의 버전이 나열되어 있습니다.

이번 릴리스에서 Spark와 함께 설치된 구성 요소 버전은 릴리스 5.36.2 구성 요소 버전을 참조하십시오.

emr-5.36.2의 스파크 버전 정보
Amazon EMR 릴리스 레이블 Spark 버전 Spark와 함께 설치된 구성 요소

emr-5.36.2

Spark 2.4.8

aws-sagemaker-spark-sdk, emrfs, emr-goodies, emr-ddb, emr-s3-select, hadoop-client, hadoop-hdfs-datanode, hadoop-hdfs-library, hadoop-hdfs-namenode, hadoop-httpfs-server, hadoop-kms-server, hadoop-yarn-nodemanager, hadoop-yarn-resourcemanager, hadoop-yarn-timeline-server, hudi, hudi-spark, livy-server, nginx, r, spark-client, spark-history-server, spark-on-yarn, spark-yarn-slave