기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.
Apache Spark
Apache Spark
Spark는 기본적으로 Scala, Python 및 Java로 작성된 애플리케이션을 지원합니다. 여기에는 SQL용 여러 통합 라이브러리(Spark SQL
Amazon EMR 클러스터에 다른 Hadoop 애플리케이션과 함께 Spark를 설치할 수 있으며, Amazon EMR 파일 시스템(EMRFS)을 활용하여 Amazon S3에서 데이터에 직접 액세스할 수도 있습니다. 또한 Hive는 Spark와 통합되어 있어 HiveContext 객체를 사용하여 Spark를 사용하여 Hive 스크립트를 실행할 수 있습니다. Hive 컨텍스트는 spark-shell에 sqlContext
로 포함됩니다.
Spark로 EMR 클러스터를 설정하고 샘플 데이터 세트를 분석하는 방법에 대한 예제 자습서는 뉴스 블로그의 자습서: Amazon EMR 시작하기를 참조하십시오. AWS
중요
Amazon EMR 릴리스 5.16.0부터 사용할 수 있는 Apache Spark 버전 2.3.1은 CVE-2018-8024
다음 테이블에는 Amazon EMR이 Spark를 통해 설치하는 구성 요소와 함께 Amazon EMR 7.x 시리즈의 최신 릴리스에 포함된 Spark의 버전이 나열되어 있습니다.
이번 릴리스에서 Spark와 함께 설치된 구성 요소 버전은 릴리스 7.1.0 구성 요소 버전을 참조하십시오.
emr-7.1.0의 스파크 버전 정보 | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
Amazon EMR 릴리스 레이블 | Spark 버전 | Spark와 함께 설치된 구성 요소 | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
emr-7.1.0 |
Spark 3.5.0 |
delta, emrfs, emr-goodies, emr-ddb, emr-s3-select, hadoop-client, hadoop-hdfs-datanode, hadoop-hdfs-library, hadoop-hdfs-namenode, hadoop-httpfs-server, hadoop-kms-server, hadoop-yarn-nodemanager, hadoop-yarn-resourcemanager, hadoop-yarn-timeline-server, hudi, hudi-spark, iceberg, livy-server, nginx, r, spark-client, spark-history-server, spark-on-yarn, spark-yarn-slave |
다음 테이블에는 Amazon EMR이 Spark를 통해 설치하는 구성 요소와 함께 Amazon EMR 6.x 시리즈의 최신 릴리스에 포함된 Spark의 버전이 나열되어 있습니다.
이 릴리스에서 Spark와 함께 설치된 구성 요소의 버전은 릴리스 6.15.0 구성 요소 버전을 참조하세요.
emr-6.15.0용 Spark 버전 정보 | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
Amazon EMR 릴리스 레이블 | Spark 버전 | Spark와 함께 설치된 구성 요소 | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
emr-6.15.0 |
Spark 3.4.1 |
aws-sagemaker-spark-sdk, delta, emrfs, emr-goodies, emr-ddb, emr-s3-select, hadoop-client, hadoop-hdfs-datanode, hadoop-hdfs-library, hadoop-hdfs-namenode, hadoop-httpfs-server, hadoop-kms-server, hadoop-yarn-nodemanager, hadoop-yarn-resourcemanager, hadoop-yarn-timeline-server, hudi, hudi-spark, iceberg, livy-server, nginx, r, spark-client, spark-history-server, spark-on-yarn, spark-yarn-slave |
참고
Amazon EMR 릴리스 6.8.0은 Apache Spark 3.3.0과 함께 제공됩니다. 이번 Spark 릴리스에서는 Apache Log4j 2 및 log4j2.properties
파일을 사용하여 Spark 프로세스에서 Log4j를 구성합니다. 클러스터에서 Spark를 사용하거나 사용자 지정 구성 파라미터를 사용하여 EMR 클러스터를 생성하고 Amazon EMR 릴리스 6.8.0으로 업그레이드하려는 경우 Apache Log4j 2의 새로운 spark-log4j2
구성 분류 및 키 형식으로 마이그레이션해야 합니다. 자세한 정보는 Apache Log4j 1.x에서 Log4j 2.x로 마이그레이션을 참조하세요.
다음 테이블에는 Amazon EMR이 Spark를 통해 설치하는 구성 요소와 함께 Amazon EMR 5.x 시리즈의 최신 릴리스에 포함된 Spark의 버전이 나열되어 있습니다.
이번 릴리스에서 Spark와 함께 설치된 구성 요소 버전은 릴리스 5.36.2 구성 요소 버전을 참조하십시오.
emr-5.36.2의 스파크 버전 정보 | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
Amazon EMR 릴리스 레이블 | Spark 버전 | Spark와 함께 설치된 구성 요소 | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
emr-5.36.2 |
Spark 2.4.8 |
aws-sagemaker-spark-sdk, emrfs, emr-goodies, emr-ddb, emr-s3-select, hadoop-client, hadoop-hdfs-datanode, hadoop-hdfs-library, hadoop-hdfs-namenode, hadoop-httpfs-server, hadoop-kms-server, hadoop-yarn-nodemanager, hadoop-yarn-resourcemanager, hadoop-yarn-timeline-server, hudi, hudi-spark, livy-server, nginx, r, spark-client, spark-history-server, spark-on-yarn, spark-yarn-slave |
주제
- Apache Spark가 설치된 클러스터 생성
- Amazon EMR 6.x에서 Docker를 사용하여 Spark 애플리케이션 실행
- AWS Glue 데이터 카탈로그를 Spark SQL의 메타스토어로 사용
- Spark 구성
- Spark 성능 최적화
- Spark 결과 조각 캐싱
- Apache Spark용 Nvidia RAPIDS 액셀러레이터 사용
- Spark 쉘에 액세스
- Amazon SageMaker Spark를 기계 학습에 사용하기
- Spark 애플리케이션 작성
- Amazon S3를 사용하여 Spark 성능 개선
- Spark 단계 추가
- Spark 애플리케이션 기록 보기
- Spark 웹 UI에 액세스
- Spark 구조적 스트리밍 아마존 Kinesis Data Streams 커넥터 사용
- Amazon EMR에서 Apache Spark용 Amazon Redshift 통합 사용
- Spark 릴리스 기록