Apache Spark

Apache Spark는 Amazon EMR 클러스터에서 기계 학습, 스트림 처리 또는 그래픽 분석을 수행하는 데 도움이 되는 분산 처리 프레임워크 및 프로그래밍 모델입니다. Apache 하둡과 마찬가지로, Spark는 빅 데이터 워크로드에 일반적으로 사용되는 오픈 소스 분산형 처리 시스템입니다. 하지만 Spark와 Hadoop MapReduce 간에는 다른 몇 가지 큰 차이가 있습니다. Spark에는 최적화된 비순환 방향 그래프(DAG) 실행 엔진이 있고 메모리 안에 데이터를 능동적으로 캐시하므로 특히 특정 알고리즘 및 대화형 쿼리의 성능이 향상됩니다.

Spark는 기본적으로 Scala, Python 및 Java로 작성된 애플리케이션을 지원합니다. 또한 SQL(Spark), 기계 학습(MLlib), 스트림 처리(Spark 스트리밍) 및 그래프 처리(GraphX)를 위한 몇 가지 긴밀하게 통합된 라이브러리가 포함되어 있습니다. 이러한 도구를 사용하면 다양한 사용 사례에 대해 Spark 프레임워크를 보다 쉽게 활용할 수 있습니다.

Amazon EMR 클러스터에 다른 Hadoop 애플리케이션과 함께 Spark를 설치할 수 있으며, Amazon EMR 파일 시스템(EMRFS)을 활용하여 Amazon S3에서 데이터에 직접 액세스할 수도 있습니다. Hive도 Spark와 통합되므로 HiveContext 객체를 사용하여 Spark에서 Hive 스크립트를 실행할 수 있습니다. Hive 컨텍스트는 spark-shell에 sqlContext로 포함됩니다.

Spark로 EMR 클러스터를 설정하고 샘플 데이터 세트를 분석하는 예제 자습서는 AWS 뉴스 블로그의 자습서: Amazon EMR 시작하기를 참조하세요.

중요

Amazon EMR 릴리스 5.16.0부터 사용할 수 있는 Apache Spark 버전 2.3.1은 CVE-2018-8024 및 CVE-2018-1334를 처리합니다. Spark의 이전 버전을 Spark 버전 2.3.1 이상으로 마이그레이션하는 것이 좋습니다.

다음 테이블에는 Amazon EMR이 Spark를 통해 설치하는 구성 요소와 함께 Amazon EMR 7.x 시리즈의 최신 릴리스에 포함된 Spark의 버전이 나열되어 있습니다.

이 릴리스에서 Spark와 함께 설치된 구성 요소의 버전은 릴리스 7.10.0 구성 요소 버전을 참조하세요.

emr-7.10.0용 Spark 버전 정보
Amazon EMR 릴리스 레이블	Spark 버전	Spark와 함께 설치된 구성 요소
emr-7.10.0	Spark 3.5.5-amzn-1	delta, emrfs, emr-goodies, emr-ddb, emr-s3-select, hadoop-client, hadoop-hdfs-datanode, hadoop-hdfs-library, hadoop-hdfs-namenode, hadoop-httpfs-server, hadoop-kms-server, hadoop-yarn-nodemanager, hadoop-yarn-resourcemanager, hadoop-yarn-timeline-server, hudi, hudi-spark, iceberg, livy-server, nginx, r, spark-client, spark-history-server, spark-on-yarn, spark-yarn-slave

다음 테이블에는 Amazon EMR이 Spark를 통해 설치하는 구성 요소와 함께 Amazon EMR 6.x 시리즈의 최신 릴리스에 포함된 Spark의 버전이 나열되어 있습니다.

이 릴리스에서 Spark와 함께 설치된 구성 요소의 버전은 릴리스 6.15.0 구성 요소 버전을 참조하세요.

emr-6.15.0용 Spark 버전 정보
Amazon EMR 릴리스 레이블	Spark 버전	Spark와 함께 설치된 구성 요소
emr-6.15.0	Spark 3.4.1-amzn-2	aws-sagemaker-spark-sdk, delta, emrfs, emr-goodies, emr-ddb, emr-s3-select, hadoop-client, hadoop-hdfs-datanode, hadoop-hdfs-library, hadoop-hdfs-namenode, hadoop-httpfs-server, hadoop-kms-server, hadoop-yarn-nodemanager, hadoop-yarn-resourcemanager, hadoop-yarn-timeline-server, hudi, hudi-spark, iceberg, livy-server, nginx, r, spark-client, spark-history-server, spark-on-yarn, spark-yarn-slave

참고

Amazon EMR 릴리스 6.8.0은 Apache Spark 3.3.0과 함께 제공됩니다. 이번 Spark 릴리스에서는 Apache Log4j 2 및 log4j2.properties 파일을 사용하여 Spark 프로세스에서 Log4j를 구성합니다. 클러스터에서 Spark를 사용하거나 사용자 지정 구성 파라미터를 사용하여 EMR 클러스터를 생성하고 Amazon EMR 릴리스 6.8.0으로 업그레이드하려는 경우 Apache Log4j 2의 새로운 spark-log4j2 구성 분류 및 키 형식으로 마이그레이션해야 합니다. 자세한 내용은 Apache Log4j 1.x에서 Log4j 2.x로 마이그레이션 단원을 참조하십시오.

다음 테이블에는 Amazon EMR이 Spark를 통해 설치하는 구성 요소와 함께 Amazon EMR 5.x 시리즈의 최신 릴리스에 포함된 Spark의 버전이 나열되어 있습니다.

이 릴리스에서 Spark와 함께 설치된 구성 요소의 버전은 릴리스 5.36.2 구성 요소 버전을 참조하세요.

emr-5.36.2용 Spark 버전 정보
Amazon EMR 릴리스 레이블	Spark 버전	Spark와 함께 설치된 구성 요소
emr-5.36.2	Spark 2.4.8-amzn-2	aws-sagemaker-spark-sdk, emrfs, emr-goodies, emr-ddb, emr-s3-select, hadoop-client, hadoop-hdfs-datanode, hadoop-hdfs-library, hadoop-hdfs-namenode, hadoop-httpfs-server, hadoop-kms-server, hadoop-yarn-nodemanager, hadoop-yarn-resourcemanager, hadoop-yarn-timeline-server, hudi, hudi-spark, livy-server, nginx, r, spark-client, spark-history-server, spark-on-yarn, spark-yarn-slave

주제

javascript가 브라우저에서 비활성화되거나 사용이 불가합니다.

AWS 설명서를 사용하려면 Javascript가 활성화되어야 합니다. 지침을 보려면 브라우저의 도움말 페이지를 참조하십시오.

문서 규칙

Presto 릴리스 기록

Spark 클러스터 생성