Amazon EMR 새로운 소식 기록 - Amazon EMR

기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.

Amazon EMR 새로운 소식 기록

모든 Amazon EMR 릴리스 버전의 릴리스 정보는 아래에 나와 있습니다. 각 릴리스의 포괄적인 릴리스 정보는 Amazon EMR 5.x 릴리스 버전Amazon EMR 4.x 릴리스 버전 단원을 참조하십시오.

새 Amazon EMR 릴리스 버전을 이용할 수 있을 때 업데이트를 받아보려면 https://docs.aws.amazon.com/emr/latest/ReleaseGuide/amazon-emr-release-notes.rss에서 Amazon EMR 출시 정보에 대한 RSS 피드를 구독하십시오.

릴리스 6.1.0

다음 릴리스 정보에는 Amazon EMR 릴리스 버전 6.1.0에 대한 정보가 포함됩니다. 변경 사항은 6.0.0에 관련됩니다.

최초 릴리스 날짜: 2020년 9월 4일

최종 업데이트 날짜: 2020년 10월 15일

지원되는 애플리케이션

  • AWS SDK for Java 버전 1.11.828

  • Flink 버전 1.11.0

  • Ganglia 버전 3.7.2

  • 하둡 버전 3.2.1-amzn-1

  • HBase 버전 2.2.5

  • HBase-operator-tools 1.0.0

  • HCatalog 버전 3.1.2-amzn-0

  • Hive 버전 3.1.2-amzn-1

  • Hudi 버전 0.5.2-incubating

  • Hue 버전 4.7.1

  • JupyterHub 버전 1.1.0

  • Livy 버전 0.7.0

  • MXNet 버전 1.6.0

  • Oozie 버전 5.2.0

  • Phoenix 버전 5.0.0

  • Presto 버전 0.232

  • PrestoSQL 버전 338

  • Spark 버전 3.0.0

  • TensorFlow 버전 2.1.0

  • Zeppelin 버전 0.9.0-preview1

  • Zookeeper 버전 3.4.14

  • 커넥터 및 드라이버: DynamoDB Connector 4.14.0

새로운 기능

  • ARM 인스턴스 유형은 Amazon EMR 버전 5.30.0 및 Amazon EMR 버전 6.1.0부터 지원됩니다.

  • M6g 범용 인스턴스 유형은 Amazon EMR 버전 6.1.0부터 지원됩니다. 자세한 내용은 Amazon EMR 관리 안내서지원되는 인스턴스 유형을 참조하세요.

  • EC2 배치 그룹 기능은 여러 마스터 노드 클러스터에 대한 옵션으로 Amazon EMR 버전 5.23.0부터 지원됩니다. 현재 배치 그룹 기능에서는 마스터 노드 유형만 지원되며 SPREAD 전략은 해당 마스터 노드에 적용됩니다. SPREAD 전략은 소규모 인스턴스 그룹을 별도의 기본 하드웨어에 배치하여 하드웨어 장애 발생 시 여러 마스터 노드의 손실을 방지합니다. 자세한 내용은 Amazon EMR 관리 안내서EC2 배치 그룹과 EMR 통합 단원을 참조하십시오.

  • 관리형 조정 – Amazon EMR 버전 6.1.0을 사용하면 EMR 관리형 조정을 활성화하여 워크로드에 따라 클러스터의 인스턴스 또는 유닛 수를 자동으로 늘리거나 줄일 수 있습니다. EMR은 클러스터 지표를 지속적으로 평가하여 비용과 속도 측면에서 클러스터를 최적화하는 조정 결정을 내립니다. 관리형 조정은 Amazon EMR 버전 5.30.0 이상(6.0.0 제외)에서도 사용할 수 있습니다. 자세한 내용은 Amazon EMR 관리 안내서클러스터 리소스 조정을 참조하십시오.

  • PrestoSQL 버전 338은 EMR 6.1.0에서 지원됩니다. 자세한 내용은 도커 통합 구성을 참조하십시오.

    • PrestoSQL은 EMR 6.1.0 이상 버전에서만 지원되며 EMR 6.0.0 또는 EMR 5.x에서는 지원되지 않습니다.

    • 애플리케이션 이름 Presto는 클러스터에 PrestoDB를 설치하는 데 계속 사용됩니다. 클러스터에 PrestoSQL을 설치하려면 애플리케이션 이름 PrestoSQL을 사용합니다.

    • PrestoDB 또는 PrestoSQL을 설치할 수 있지만 둘 다 단일 클러스터에 설치할 수는 없습니다. 클러스터를 생성하려고 할 때 PrestoDB와 PresoSQL을 모두 지정하면 확인 오류가 발생하고 클러스터 생성 요청이 실패합니다.

    • PrestoSQL은 단일 마스터 및 다중 마스터 클러스터 모두에서 지원됩니다. 다중 마스터 클러스터에서는 PrestoSQL 또는 PrestoDB를 실행하려면 외부 Hive 메타스토어가 필요합니다. 여러 마스터 노드를 포함하는 EMR 클러스터에서 지원되는 애플리케이션을 참조하세요.

  • Apache 하둡 및 Docker를 사용한 Apache Spark에 대한 ECR 자동 인증 지원: Spark 사용자는 Docker Hub 및 Amazon Elastic Container Registry(Amazon ECR)의 Docker 이미지를 사용하여 환경 및 라이브러리 종속성을 정의할 수 있습니다.

    Docker 구성Amazon EMR 6.x를 사용하여 Docker로 Spark 애플리케이션 실행.

  • EMR은 Apache Hive ACID 트랜잭션 지원: Amazon EMR 6.1.0은 Hive ACID 트랜잭션에 대한 지원을 추가하여 데이터베이스의 ACID 속성을 준수합니다. 이 기능을 사용하면 Amazon Simple Storage Service(Amazon S3)의 데이터가 있는 Hive 관리형 테이블에서 INSERT, UPDATE, DELETE 및 MERGE 작업을 실행할 수 있습니다. 이 기능은 스트리밍 수집, 데이터 재작성, MERGE를 사용한 대량 업데이트 및 느리게 변경되는 차원과 같은 사용 사례에 대한 핵심 기능입니다. 구성 예제 및 사용 사례를 비롯한 자세한 내용은 Amazon EMR은 Apache Hive ACID 트랜잭션 지원 단원을 참조하세요.

변경 사항, 향상된 기능 및 해결된 문제

  • Apache Flink는 EMR 6.0.0에서 지원되지 않지만 Flink 1.11.0을 사용하는 경우에는 EMR 6.1.0에서 지원됩니다. 이는 공식적으로 하둡 3를 지원하는 Flink의 첫 번째 버전입니다. Apache Flink 1.11.0 Release Announcement를 참조하세요.

  • Ganglia가 기본 EMR 6.1.0 패키지 번들에서 제거되었습니다.

알려진 문제

  • spark.driver.extraJavaOptionsspark.executor.extraJavaOptions를 사용하여 사용자 지정 가비지 수집 구성을 설정하면 충돌하는 가비지 수집 구성으로 인해 EMR 6.1에서 드라이버/실행기 시작 오류가 발생합니다. EMR 릴리스 6.1.0에서는 대신 spark.driver.defaultJavaOptionsspark.executor.defaultJavaOptions 속성을 사용하여 드라이버 및 실행기에 대한 사용자 지정 Spark 가비지 수집 구성을 지정해야 합니다. 자세한 내용은 Apache Spark 런타임 환경Amazon EMR 6.1.0에서 Spark 가비지 수집 구성에서 자세한 내용을 읽어보세요.

  • Pig를 Oozie와 함께 사용하면(그리고 Hue 내에서, Hue는 Oozie 작업을 사용하여 Pig 스크립트를 실행하기 때문) 기본 lzo 라이브러리를 로드할 수 없다는 오류가 발생합니다. 이 오류 메시지는 정보를 제공할 목적일 뿐이며 Pig 실행을 차단하지 않습니다.

  • Hudi 동시성 지원: 현재 Hudi는 단일 Hudi 테이블에 대한 동시 쓰기를 지원하지 않습니다. 또한 Hudi는 새 라이터의 시작을 허용하기 전에 진행 중인 라이터에 의해 수행되는 변경 사항을 모두 롤백합니다. 동시 쓰기는 이 메커니즘을 방해할 수 있으며, 데이터 손상을 초래할 수 있는 경쟁 조건을 도입할 수 있습니다. 데이터 처리 워크플로의 일부로 언제든지 Hudi 테이블에 대해 작동하는 Hudi 라이터 하나만 있는지 확인해야 합니다. Hudi는 동일한 Hudi 테이블에 대해 작동하는 여러 동시 리더를 지원합니다.

  • Known issue in clusters with multiple master nodes and Kerberos authentication

    If you run clusters with multiple master nodes and Kerberos authentication in EMR releases 5.20.0 and later, you may encounter problems with cluster operations such as scale down or step submission, after the cluster has been running for some time. The time period depends on the Kerberos ticket validity period that you defined. The scale-down problem impacts both automatic scale-down and explicit scale down requests that you submitted. Additional cluster operations can also be impacted.

    Workaround:

    • SSH as hadoop user to the lead master node of the EMR cluster with multiple master nodes.

    • Run the following command to renew Kerberos ticket for hadoop user.

      kinit -kt <keytab_file> <principal>

      Typically, the keytab file is located at /etc/hadoop.keytab and the principal is in the form of hadoop/<hostname>@<REALM>.

    참고

    This workaround will be effective for the time period the Kerberos ticket is valid. This duration is 10 hours by default, but can configured by your Kerberos settings. You must re-run the above command once the Kerberos ticket expires.

릴리스 6.0.0

다음 릴리스 정보에는 Amazon EMR 릴리스 버전 6.0.0에 대한 정보가 포함됩니다.

최초 릴리스 날짜: 2020년 3월 10일

지원되는 애플리케이션

  • AWS SDK for Java 버전 1.11.711

  • Ganglia 버전 3.7.2

  • Hadoop 버전 3.2.1

  • HBase 버전 2.2.3

  • HCatalog 버전 3.1.2

  • Hive 버전 3.1.2

  • Hudi 버전 0.5.0-incubating

  • Hue 버전 4.4.0

  • JupyterHub 버전 1.0.0

  • Livy 버전 0.6.0

  • MXNet 버전 1.5.1

  • Oozie 버전 5.1.0

  • Phoenix 버전 5.0.0

  • Presto 버전 0.230

  • Spark 버전 2.4.4

  • TensorFlow 버전 1.14.0

  • Zeppelin 버전 0.9.0-SNAPSHOT

  • Zookeeper 버전 3.4.14

  • 커넥터 및 드라이버: DynamoDB Connector 4.14.0

참고

Flink, Sqoop, Pig 및 Mahout는 Amazon EMR 버전 6.0.0에서만 사용할 수 있습니다.

새로운 기능

  • YARN 도커 런타임 지원 - Spark 작업과 같은 YARN 애플리케이션은 이제 도커 컨테이너의 컨텍스트에서 실행될 수 있습니다. 이렇게 하면 Amazon EMR 클러스터에 사용자 지정 라이브러리를 설치할 필요 없이 도커 이미지의 종속성을 쉽게 정의할 수 있습니다. 자세한 내용은 도커 통합 구성Amazon EMR 6.0.0을 사용하여 도커와 함께 Spark 애플리케이션 실행을 참조하십시오.

  • Hive LLAP 지원 - Hive는 이제 향상된 쿼리 성능을 위해 LLAP 실행 모드를 지원합니다. 자세한 내용은 Hive LLAP 사용을 참조하십시오.

변경 사항, 향상된 기능 및 해결된 문제

  • Amazon Linux

    • Amazon Linux 2는 EMR 6.x 릴리스 시리즈의 운영 체제입니다.

    • systemd는 Amazon Linux 1에서 사용되는 upstart 대신 서비스 관리에 사용됩니다.

  • Java Development Kit(JDK)

    • Coretto JDK 8은 EMR 6.x 릴리스 시리즈의 기본 JDK입니다.

  • Scala

    • Scala 2.12는 Apache Spark 및 Apache Livy와 함께 사용됩니다.

  • Python 3

    • Python 3은 이제 EMR에서 Python의 기본 버전입니다.

  • YAR의 노드 레이블

    • Amazon EMR 6.x 릴리스 시리즈부터 YARN 노드 레이블 기능은 기본적으로 비활성화되어 있습니다. 애플리케이션 마스터 프로세스는 기본적으로 코어 및 작업 노드 모두에서 실행할 수 있습니다. yarn.node-labels.enabledyarn.node-labels.am.default-node-label-expression 속성을 구성하여 YARN 노드 레이블 기능을 활성화할 수 있습니다. 자세한 내용은 마스터, 코어 및 작업 노드 이해를 참조하십시오.

알려진 문제

  • PySpark, SparkR 및 spark-shell을 포함한 Spark 대화형 셸은 도커를 추가 라이브러리와 함께 사용하는 것을 지원하지 않습니다.

  • Amazon EMR 버전 6.0.0에서 Python 3를 사용하려면 yarn.nodemanager.env-whitelistPATH를 추가해야 합니다.

  • AWS Glue 데이터 카탈로그를 Hive용 메타스토어로 사용하는 경우 Live Long and Process(LLAP) 기능이 지원되지 않습니다.

  • Spark 및 도커 통합과 함께 Amazon EMR 6.0.0을 사용하는 경우 도커 런타임으로 Spark 작업을 제출할 때 실패를 방지하려면 동일한 인스턴스 유형과 동일한 양의 EBS 볼륨으로 클러스터의 인스턴스를 구성해야 합니다.

  • Amazon EMR 6.0.0에서는 Amazon S3 스토리지 모드의 HBase가 HBASE-24286 문제의 영향을 받습니다. 기존 S3 데이터를 사용하여 클러스터를 생성하면 HBase 마스터를 초기화할 수 없습니다.

  • Known issue in clusters with multiple master nodes and Kerberos authentication

    If you run clusters with multiple master nodes and Kerberos authentication in EMR releases 5.20.0 and later, you may encounter problems with cluster operations such as scale down or step submission, after the cluster has been running for some time. The time period depends on the Kerberos ticket validity period that you defined. The scale-down problem impacts both automatic scale-down and explicit scale down requests that you submitted. Additional cluster operations can also be impacted.

    Workaround:

    • SSH as hadoop user to the lead master node of the EMR cluster with multiple master nodes.

    • Run the following command to renew Kerberos ticket for hadoop user.

      kinit -kt <keytab_file> <principal>

      Typically, the keytab file is located at /etc/hadoop.keytab and the principal is in the form of hadoop/<hostname>@<REALM>.

    참고

    This workaround will be effective for the time period the Kerberos ticket is valid. This duration is 10 hours by default, but can configured by your Kerberos settings. You must re-run the above command once the Kerberos ticket expires.

릴리스 5.30.1

다음 릴리스 정보에는 Amazon EMR 릴리스 버전 5.30.1에 대한 정보가 포함됩니다. 변경 사항은 5.30.0에 관련됩니다.

최초 릴리스 날짜: 2020년 6월 30일

최종 업데이트 날짜: 2020년 8월 24일

변경 사항, 향상된 기능 및 해결된 문제

  • 인스턴스 컨트롤러 프로세스가 무한한 수의 프로세스를 생성하는 문제가 해결되었습니다.

  • Hue가 Hive 쿼리를 실행할 수 없고 “데이터베이스가 잠겼습니다.”라는 메시지가 표시되고 쿼리 실행을 방해하는 문제가 해결되었습니다.

  • EMR 클러스터에서 더 많은 태스크를 동시에 실행할 수 있도록 Spark 문제가 해결되었습니다.

  • Jupyter 서버에서 “너무 많은 파일 열기 오류”를 발생시키는 Jupyter 노트북 문제가 해결되었습니다.

  • 클러스터 시작 시간 문제가 해결되었습니다.

새로운 기능

  • Tez UI 및 YARN 타임라인 서버 영구 애플리케이션 인터페이스는 Amazon EMR 버전 6.x, EMR 버전 5.30.1 이상에서 사용할 수 있습니다. 영구 애플리케이션 기록에 대한 원클릭 링크 액세스를 사용하면 SSH 연결을 통해 웹 프록시를 설정하지 않고도 작업 기록에 빠르게 액세스할 수 있습니다. 활성 클러스터 및 종료된 클러스터에 대한 로그는 애플리케이션이 종료된 후 30일 동안 사용할 수 있습니다. 자세한 내용은 Amazon EMR 관리 안내서영구 애플리케이션 사용자 인터페이스 보기를 참조하세요.

  • EMR Notebook 실행 API는 스크립트 또는 명령줄을 통해 EMR Notebooks를 실행하는 데 사용할 수 있습니다. AWS 콘솔 없이 EMR 노트북 실행을 시작, 중지, 나열 및 설명하는 기능을 통해 EMR 노트북을 프로그래밍 방식으로 제어할 수 있습니다. 파라미터화된 노트북 셀을 사용하면 각 새 파라미터 값 집합에 대해 노트북 복사본을 생성하지 않고도 다른 파라미터 값을 노트북에 전달할 수 있습니다. EMR API 작업을 참조하세요. 샘플 코드는 EMR 노트북을 프로그래밍 방식으로 실행하는 샘플 명령을 참조하세요.

알려진 문제

  • EMR 노트북

    클러스터의 마스터 노드에 추가 Python 라이브러리와 커널을 설치할 수 있는 기능이 EMR 버전 5.30.1에서는 기본적으로 비활성화되어 있습니다. 이 기능에 대한 자세한 내용은 클러스터 마스터 노드에 커널 및 Python 라이브러리 설치를 참조하십시오.

    이 기능을 활성화하려면 다음을 수행합니다.

    1. EMR Notebooks의 서비스 역할에 연결된 권한 정책이 다음 작업을 허용하는지 확인합니다.

      elasticmapreduce:ListSteps

      자세한 내용은 EMR 노트북 서비스 역할 단원을 참조하십시오.

    2. AWS CLI를 사용하여 다음 예제와 같이 EMR 노트북이 설정된 클러스터에서 단계를 실행합니다. 자세한 내용은 AWS CLI를 사용하여 클러스터에 단계 추가 단원을 참조하십시오.

      aws emr add-steps --cluster-id MyClusterID --steps 'Type=CUSTOM_JAR,Name=EMRNotebooksSetup,ActionOnFailure=CONTINUE,Jar=s3://us-east-1.elasticmapreduce/libs/script-runner/script-runner.jar,Args=["s3://awssupportdatasvcs.com/bootstrap-actions/EMRNotebooksSetup/emr-notebooks-setup.sh"]'
  • 관리형 조정

    Presto가 설치되지 않은 5.30.0 및 5.30.1 클러스터에서 관리되는 조정 작업으로 인해 애플리케이션 장애가 발생하거나 균일한 인스턴스 그룹 또는 인스턴스 플릿이 ARRESTED 상태를 유지할 수 있으며, 이는 특히 축소 작업 후 빠르게 조정 작업이 수행되는 경우에 발생합니다.

    이 문제를 해결하려면 Presto가 필요하지 않은 경우에도 클러스터를 만들 때 설치할 애플리케이션으로 Presto를 선택합니다.

  • Known issue in clusters with multiple master nodes and Kerberos authentication

    If you run clusters with multiple master nodes and Kerberos authentication in EMR releases 5.20.0 and later, you may encounter problems with cluster operations such as scale down or step submission, after the cluster has been running for some time. The time period depends on the Kerberos ticket validity period that you defined. The scale-down problem impacts both automatic scale-down and explicit scale down requests that you submitted. Additional cluster operations can also be impacted.

    Workaround:

    • SSH as hadoop user to the lead master node of the EMR cluster with multiple master nodes.

    • Run the following command to renew Kerberos ticket for hadoop user.

      kinit -kt <keytab_file> <principal>

      Typically, the keytab file is located at /etc/hadoop.keytab and the principal is in the form of hadoop/<hostname>@<REALM>.

    참고

    This workaround will be effective for the time period the Kerberos ticket is valid. This duration is 10 hours by default, but can configured by your Kerberos settings. You must re-run the above command once the Kerberos ticket expires.

릴리스 5.30.0

다음 릴리스 정보에는 Amazon EMR 릴리스 버전 5.30.0에 대한 정보가 포함됩니다. 변경 사항은 5.29.0에 관련됩니다.

최초 릴리스 날짜: 2020년 5월 13일

최종 업데이트 날짜: 2020년 6월 25일

업그레이드

  • AWS SDK for Java가 버전 1.11.759로 업그레이드됨

  • Amazon SageMaker Spark SDK가 버전 1.3.0으로 업그레이드됨

  • EMR 레코드 서버가 버전 1.6.0으로 업그레이드됨

  • Flink가 버전 1.10.0으로 업그레이드됨

  • Ganglia가 버전 3.7.2로 업그레이드됨

  • HBase가 버전 1.4.13으로 업그레이드됨

  • Hudi가 버전 0.5.2-incubating으로 업그레이드됨

  • Hue가 버전 4.6.0으로 업그레이드됨

  • JupyterHub가 버전 1.1.0으로 업그레이드됨

  • Livy가 버전 0.7.0-incubating으로 업그레이드됨

  • Oozie가 버전 5.2.0으로 업그레이드됨

  • Presto가 버전 0.232로 업그레이드됨

  • Spark가 버전 2.4.5로 업그레이드됨

  • 업그레이드된 커넥터 및 드라이버: Amazon Glue 커넥터 1.12.0, Amazon Kinesis 커넥터 3.5.0, EMR DynamoDB 커넥터 4.14.0

새로운 기능

  • EMR Notebooks – 5.30.0을 사용하여 만든 EMR 클러스터와 함께 사용하면 EMR 노트북 커널이 클러스터에서 실행됩니다. 이로써 노트북 성능이 향상되며, 커널을 설치하고 사용자 지정할 수 있습니다. 클러스터 마스터 노드에 Python 라이브러리를 설치할 수도 있습니다. 자세한 내용은 EMR 관리 안내서커널 및 라이브러리 설치 및 사용을 참조하십시오.

  • 관리형 조정 – Amazon EMR 버전 5.30.0 이상을 사용하면 EMR 관리형 조정을 활성화하여 워크로드에 따라 클러스터의 인스턴스 또는 유닛 수를 자동으로 늘리거나 줄일 수 있습니다. EMR은 클러스터 지표를 지속적으로 평가하여 비용과 속도 측면에서 클러스터를 최적화하는 조정 결정을 내립니다. 자세한 내용은 Amazon EMR 관리 안내서클러스터 리소스 조정을 참조하십시오.

  • Amazon S3에 저장된 로그 파일 암호화 – Amazon EMR 버전 5.30.0 이상에서는 Amazon S3에 저장된 로그 파일을 AWS KMS 고객 관리형 키로 암호화할 수 있습니다. 자세한 내용은 Amazon EMR 관리 안내서Amazon S3에 저장된 로그 파일 암호화를 참조하십시오.

  • Amazon Linux 2 지원 – EMR 버전 5.30.0 이상에서는 EMR이 Amazon Linux 2 OS를 사용합니다. 새로운 사용자 지정 Amazon Machine Image(AMI)는 Amazon Linux 2 AMI를 기반으로 해야 합니다. 자세한 내용은 사용자 지정 AMI 사용을 참조하십시오.

  • Presto 정상적 자동 조정 – 5.30.0 버전을 사용하는 EMR 클러스터의 경우 자동 조정 제한 시간을 설정할 수 있습니다. 이 제한 시간은 노드가 서비스 해제되기 전에 실행을 완료하는 Presto 작업 시간을 제공합니다. 자세한 내용은 단계적 서비스 해제가 있는 Presto Auto Scaling 사용 단원을 참조하십시오.

  • 새로운 할당 전략 옵션으로 플릿 인스턴스 생성 – EMR 버전 5.12.1 이상에서 새 할당 전략 옵션을 사용할 수 있습니다. 이는 더 빠른 클러스터 프로비저닝과 더욱 정확한 스팟 할당을 제공하고 스팟 인스턴스 중단을 줄여줍니다. 기본이 아닌 EMR 서비스 역할에 대한 업데이트가 필요합니다. 인스턴스 플릿 구성을 참조하세요.

  • sudo systemctl stop 및 sudo systemctl start 명령 – Amazon Linux 2 OS를 사용하는 EMR 버전 5.30.0 이상에서는 EMR이 sudo systemctl stopsudo systemctl start 명령을 사용하여 서비스를 다시 시작합니다. 자세한 내용은 Amazon EMR에서 서비스를 다시 시작하려면 어떻게 해야 하나요?를 참조하세요.

변경 사항, 향상된 기능 및 해결된 문제

  • EMR 버전 5.30.0은 기본적으로 Ganglia를 설치하지 않습니다. 클러스터 생성 시 Ganglia를 설치하도록 명시적으로 선택할 수 있습니다.

  • Spark 성능 최적화

  • Presto 성능 최적화

  • Python 3는 Amazon EMR 버전 5.30.0 이상에 대한 기본값입니다.

  • 프라이빗 서브넷의 서비스 액세스에 대한 기본 관리형 보안 그룹이 새 규칙으로 업데이트되었습니다. 서비스 액세스에 대한 사용자 지정 보안 그룹을 사용하는 경우, 기본 관리형 보안 그룹과 동일한 규칙을 포함시켜야 합니다. 자세한 내용은 서비스 액세스에 대한 Amazon EMR 관리형 보안 그룹(프라이빗 서브넷)을 참조하십시오 Amazon EMR에 대해 사용자 지정 서비스 역할을 사용하는 경우 EMR에서 보안 그룹이 올바르게 생성되는지 여부를 검증할 수 있도록 ec2:describeSecurityGroups에 대한 권한을 부여해야 합니다. EMR_DefaultRole을 사용하는 경우 이 권한은 이미 기본 관리형 정책에 포함되어 있습니다.

알려진 문제

  • 관리형 조정

    Presto가 설치되지 않은 5.30.0 및 5.30.1 클러스터에서 관리되는 조정 작업으로 인해 애플리케이션 장애가 발생하거나 균일한 인스턴스 그룹 또는 인스턴스 플릿이 ARRESTED 상태를 유지할 수 있으며, 이는 특히 축소 작업 후 빠르게 조정 작업이 수행되는 경우에 발생합니다.

    이 문제를 해결하려면 Presto가 필요하지 않은 경우에도 클러스터를 만들 때 설치할 애플리케이션으로 Presto를 선택합니다.

  • Known issue in clusters with multiple master nodes and Kerberos authentication

    If you run clusters with multiple master nodes and Kerberos authentication in EMR releases 5.20.0 and later, you may encounter problems with cluster operations such as scale down or step submission, after the cluster has been running for some time. The time period depends on the Kerberos ticket validity period that you defined. The scale-down problem impacts both automatic scale-down and explicit scale down requests that you submitted. Additional cluster operations can also be impacted.

    Workaround:

    • SSH as hadoop user to the lead master node of the EMR cluster with multiple master nodes.

    • Run the following command to renew Kerberos ticket for hadoop user.

      kinit -kt <keytab_file> <principal>

      Typically, the keytab file is located at /etc/hadoop.keytab and the principal is in the form of hadoop/<hostname>@<REALM>.

    참고

    This workaround will be effective for the time period the Kerberos ticket is valid. This duration is 10 hours by default, but can configured by your Kerberos settings. You must re-run the above command once the Kerberos ticket expires.

릴리스 5.29.0

다음 릴리스 정보에는 Amazon EMR 릴리스 버전 5.29.0에 대한 정보가 포함됩니다. 변경 사항은 5.28.1에 관련됩니다.

최초 릴리스 날짜: 2020년 1월 17일

업그레이드

  • AWS Java SDK가 버전 1.11.682로 업그레이드됨

  • Hive가 버전 2.3.6으로 업그레이드됨

  • Flink가 버전 1.9.1로 업그레이드됨

  • EmrFS가 버전 2.38.0으로 업그레이드됨

  • EMR DynamoDB Connector가 버전 4.13.0으로 업그레이드됨

변경 사항, 향상된 기능 및 해결된 문제

  • Spark

    • Spark 성능 최적화

  • EMRFS

    • 일관된 보기를 위해 관리 안내서에서 emrfs-site.xml 기본 설정이 업데이트됩니다.

알려진 문제

  • Known issue in clusters with multiple master nodes and Kerberos authentication

    If you run clusters with multiple master nodes and Kerberos authentication in EMR releases 5.20.0 and later, you may encounter problems with cluster operations such as scale down or step submission, after the cluster has been running for some time. The time period depends on the Kerberos ticket validity period that you defined. The scale-down problem impacts both automatic scale-down and explicit scale down requests that you submitted. Additional cluster operations can also be impacted.

    Workaround:

    • SSH as hadoop user to the lead master node of the EMR cluster with multiple master nodes.

    • Run the following command to renew Kerberos ticket for hadoop user.

      kinit -kt <keytab_file> <principal>

      Typically, the keytab file is located at /etc/hadoop.keytab and the principal is in the form of hadoop/<hostname>@<REALM>.

    참고

    This workaround will be effective for the time period the Kerberos ticket is valid. This duration is 10 hours by default, but can configured by your Kerberos settings. You must re-run the above command once the Kerberos ticket expires.

릴리스 5.28.1

다음 릴리스 정보에는 Amazon EMR 릴리스 버전 5.28.1에 대한 정보가 포함됩니다. 변경 사항은 5.28.0에 관련됩니다.

최초 릴리스 날짜: 2020년 1월 10일

변경 사항, 향상된 기능 및 해결된 문제

  • Spark

    • Spark 호환성 문제를 수정했습니다.

  • CloudWatch 측정치

    • 여러 마스터 노드가 있는 EMR 클러스터에 Amazon CloudWatch 지표가 게시되는 문제를 수정했습니다.

  • 로그 메시지 비활성화

    • false 로그 메시지 "이전 버전(<4.5.8)의 Apache http 클라이언트를 사용..."을 비활성화했습니다.

알려진 문제

  • Known issue in clusters with multiple master nodes and Kerberos authentication

    If you run clusters with multiple master nodes and Kerberos authentication in EMR releases 5.20.0 and later, you may encounter problems with cluster operations such as scale down or step submission, after the cluster has been running for some time. The time period depends on the Kerberos ticket validity period that you defined. The scale-down problem impacts both automatic scale-down and explicit scale down requests that you submitted. Additional cluster operations can also be impacted.

    Workaround:

    • SSH as hadoop user to the lead master node of the EMR cluster with multiple master nodes.

    • Run the following command to renew Kerberos ticket for hadoop user.

      kinit -kt <keytab_file> <principal>

      Typically, the keytab file is located at /etc/hadoop.keytab and the principal is in the form of hadoop/<hostname>@<REALM>.

    참고

    This workaround will be effective for the time period the Kerberos ticket is valid. This duration is 10 hours by default, but can configured by your Kerberos settings. You must re-run the above command once the Kerberos ticket expires.

릴리스 5.28.0

다음 릴리스 정보에는 Amazon EMR 릴리스 버전 5.28.0에 대한 정보가 포함됩니다. 변경 사항은 5.27.0에 관련됩니다.

최초 릴리스 날짜: 2019년 11월 12일

업그레이드

  • Flink가 버전 1.9.0으로 업그레이드됨

  • Hive가 버전 2.3.6으로 업그레이드됨

  • MXNet이 1.5.1로 업그레이드됨

  • Phoenix가 버전 4.14.3으로 업그레이드됨

  • Presto가 버전 0.227로 업그레이드됨

  • Zeppelin이 버전 0.8.2로 업그레이드됨

새로운 기능

  • 이제 클러스터를 생성할 때 Apache Hudi를 Amazon EMR에 설치할 수 있습니다. 자세한 내용은 Hudi(인큐베이팅) 단원을 참조하십시오.

  • (2019년 11월 25일) 이제 클러스터 사용률을 개선하고 비용을 절감하기 위해 여러 단계를 병렬로 실행하도록 선택할 수 있습니다. 대기 중인 단계와 실행 중인 단계를 모두 취소할 수도 있습니다. 자세한 내용은 AWS CLI 및 콘솔을 사용하여 단계 작업을 참조하십시오.

  • (2019년 12월 3일) 이제 AWS Outposts에서 EMR 클러스터를 생성하고 실행할 수 있습니다. AWS Outposts를 통해 온프레미스 시설에서 네이티브 AWS 서비스, 인프라 및 운영 모델을 사용할 수 있습니다. AWS Outposts 환경에서는 AWS 클라우드에서 사용하는 것과 동일한 AWS API, 도구 및 인프라를 사용할 수 있습니다. 자세한 내용은 AWS Outposts 기반 EMR 클러스터를 참조하십시오.

  • (2020년 3월 11일) Amazon EMR 버전 5.28.0부터는 로컬 영역를 지원하는 AWS 리전의 논리적 확장으로서 AWS 로컬 영역 서브넷에서 Amazon EMR 클러스터를 생성하고 실행할 수 있습니다. 로컬 영역을 사용하면 컴퓨팅 및 스토리지 서비스와 같은 Amazon EMR 기능 및 일부 AWS 서비스가 사용자와 더 가깝게 위치하므로 로컬로 실행되는 애플리케이션의 액세스 지연 시간이 매우 단축될 수 있습니다 사용 가능한 로컬 영역 목록은 AWS 로컬 영역을 참조하십시오. 사용 가능한 AWS 로컬 영역 액세스에 대한 자세한 내용은 리전, 가용 영역 및 로컬 영역을 참조하십시오.

    로컬 영역는 현재 Amazon EMR 노트북을 지원하지 않으며 인터페이스 VPC 엔드포인트(AWS PrivateLink)를 사용하는 직접 Amazon EMR 연결을 지원하지 않습니다.

변경 사항, 향상된 기능 및 해결된 문제

알려진 문제

  • Known issue in clusters with multiple master nodes and Kerberos authentication

    If you run clusters with multiple master nodes and Kerberos authentication in EMR releases 5.20.0 and later, you may encounter problems with cluster operations such as scale down or step submission, after the cluster has been running for some time. The time period depends on the Kerberos ticket validity period that you defined. The scale-down problem impacts both automatic scale-down and explicit scale down requests that you submitted. Additional cluster operations can also be impacted.

    Workaround:

    • SSH as hadoop user to the lead master node of the EMR cluster with multiple master nodes.

    • Run the following command to renew Kerberos ticket for hadoop user.

      kinit -kt <keytab_file> <principal>

      Typically, the keytab file is located at /etc/hadoop.keytab and the principal is in the form of hadoop/<hostname>@<REALM>.

    참고

    This workaround will be effective for the time period the Kerberos ticket is valid. This duration is 10 hours by default, but can configured by your Kerberos settings. You must re-run the above command once the Kerberos ticket expires.

릴리스 5.27.0

다음 릴리스 정보에는 Amazon EMR 릴리스 버전 5.27.0에 대한 정보가 포함됩니다. 변경 사항은 5.26.0에 관련됩니다.

최초 릴리스 날짜: 2019년 9월 23일

업그레이드

  • AWS SDK for Java 1.11.615

  • Flink 1.8.1

  • JupyterHub 1.0.0

  • Spark 2.4.4

  • TensorFlow 1.14.0

  • 커넥터 및 드라이버:

    • DynamoDB 커넥터 4.12.0

새로운 기능

  • (2019년 10월 24일) 다음과 같은 EMR 노트북의 새로운 기능은 모든 Amazon EMR 릴리스에서 사용할 수 있습니다.

    • 이제 Git 리포지토리를 EMR 노트북과 연결하여 버전 제어 환경에서 노트북을 저장할 수 있습니다. 원격 Git 리포지토리를 통해 동료와 코드를 공유할 수 있고 기존 Jupyter 노트북을 재사용할 수 있습니다. 자세한 내용은 Amazon EMR 관리 안내서에서 Amazon EMR 노트북과 Git 리포지토리 연결을 참조하십시오.

    • 이제 EMR 노트북에서 nbdime 유틸리티를 사용하여 노트북 비교 및 병합을 간소화할 수 있습니다.  

    • 이제 EMR 노트북이 JupyterLab을 지원합니다. JupyterLab은 Jupyter 노트북과 완전히 호환 가능한 웹 기반 대화식 개발 환경입니다. 이제 JupyterLab 또는 Jupyter 노트북 편집기에서 노트북을 열 수 있는 옵션이 제공됩니다. 

  • (2019년 10월 30일) Amazon EMR 버전 5.25.0부터는 콘솔에서 클러스터 요약 페이지 또는 애플리케이션 이력 탭을 사용해 Spark 기록 서버 UI에 연결할 수 있습니다. SSH 연결을 통해 웹 프록시를 설정하는 대신, Spark 기록 서버 UI에 액세스하여 애플리케이션 지표를 보고 활성 클러스터 및 종료된 클러스터에 대한 관련 로그 파일에 액세스할 수 있습니다. 자세한 내용은 Amazon EMR 관리 안내서영구 애플리케이션 사용자 인터페이스에 대한 클러스터 외부 액세스를 참조하세요.

변경 사항, 향상된 기능 및 해결된 문제

알려진 문제

  • Known issue in clusters with multiple master nodes and Kerberos authentication

    If you run clusters with multiple master nodes and Kerberos authentication in EMR releases 5.20.0 and later, you may encounter problems with cluster operations such as scale down or step submission, after the cluster has been running for some time. The time period depends on the Kerberos ticket validity period that you defined. The scale-down problem impacts both automatic scale-down and explicit scale down requests that you submitted. Additional cluster operations can also be impacted.

    Workaround:

    • SSH as hadoop user to the lead master node of the EMR cluster with multiple master nodes.

    • Run the following command to renew Kerberos ticket for hadoop user.

      kinit -kt <keytab_file> <principal>

      Typically, the keytab file is located at /etc/hadoop.keytab and the principal is in the form of hadoop/<hostname>@<REALM>.

    참고

    This workaround will be effective for the time period the Kerberos ticket is valid. This duration is 10 hours by default, but can configured by your Kerberos settings. You must re-run the above command once the Kerberos ticket expires.

Release 5.26.0

다음 출시 정보에는 Amazon EMR 릴리스 버전 5.26.0에 대한 정보가 포함됩니다. 변경 사항은 5.25.0에 관련됩니다.

최초 릴리스 날짜: 2019년 8월 8일

최종 업데이트 날짜: 2019년 8월 19일

업그레이드

  • AWS SDK for Java 1.11.595

  • HBase 1.4.10

  • Phoenix 4.14.2

  • 커넥터 및 드라이버:

    • DynamoDB 커넥터 4.11.0

    • MariaDB 커넥터 2.4.2

    • Amazon Redshift JDBC 드라이버 1.2.32.1056

새로운 기능

  • (베타) Amazon EMR 5.26.0에서는 Lake Formation과 통합된 클러스터를 시작할 수 있습니다. 이 통합은 AWS Glue 데이터 카탈로그의 데이터베이스 및 테이블에 대한 세분화된 열 수준 액세스를 제공합니다. 또한 엔터프라이즈 자격 증명 시스템에서 EMR 노트북 또는 Apache Zeppelin에 연동된 Single Sign-On을 사용할 수도 있습니다. 자세한 내용은 Amazon EMR과 AWS Lake Formation 통합(베타)을 참조하십시오.

  • (2019년 8월 19일) 보안 그룹을 지원하는 모든 Amazon EMR 릴리스에 Amazon EMR 퍼블릭 액세스 차단을 사용할 수 있습니다. 퍼블릭 액세스 차단은 각 AWS 리전에 적용되는 계정 차원의 설정입니다. 포트가 예외로 지정되지 않은 한, 퍼블릭 액세스 차단은 클러스터와 연결된 보안 그룹에 포트의 IPv4 0.0.0.0/0 또는 IPv6 ::/0(퍼블릭 액세스)에서 인바운드 트래픽을 허용하는 규칙이 있을 때 클러스터가 시작되지 않도록 합니다. 포트 22는 기본적으로 예외로 설정됩니다. 자세한 내용은 Amazon EMR 관리 안내서Amazon EMR 퍼블릭 액세스 차단 사용 단원을 참조하십시오.

변경 사항, 향상된 기능 및 해결된 문제

  • EMR 노트북

    • EMR 5.26.0 이상에서 EMR 노트북는 기본 Python 라이브러리 외에도 노트북 범위의 Python 라이브러리를 지원합니다. 클러스터를 다시 생성하거나 노트북을 클러스터에 다시 연결할 필요 없이 노트북 편집기 내에서 노트북 범위 라이브러리를 설치할 수 있습니다. 노트북 범위의 라이브러리는 Python 가상 환경에서 생성되므로 현재 노트북 세션에만 적용됩니다. 이를 통해 노트북 종속성을 분리할 수 있습니다. 자세한 내용은 Amazon EMR 관리 안내서노트북 범위 라이브러리 사용을 참조하십시오.

  • EMRFS

    • fs.s3.consistent.metadata.etag.verification.enabledtrue로 설정하여 ETag 확인 기능(베타)을 활성화할 수 있습니다. 이 기능을 통해 EMRFS는 Amazon S3 ETag를 사용하여 읽고 있는 객체가 사용 가능한 최신 버전인지 확인합니다. 이 기능은 동일한 이름을 유지하면서 Amazon S3의 파일을 덮어쓰는 업데이트 후 읽기 사용 사례에 유용합니다. 이 ETag 확인 기능은 현재 S3 Select에서 작동하지 않습니다. 자세한 내용은 일관된 보기 구성 단원을 참조하십시오.

  • Spark

    • 동적 파티션 잘라내기, INTERSECT에 앞선 DISTINCT, JOIN-DISINCT 쿼리에 대한 SQL 계획 통계 추론의 개선, 스칼라 하위 쿼리 평면화, 최적화된 조인 재정렬 및 블룸 필터 조인과 같은 최적화가 이제 기본적으로 설정됩니다. 자세한 내용은 Spark 성능 최적화를 참조하십시오.

    • 정렬 병합 조인의 전체 스테이지 코드 생성 기능이 개선되었습니다.

    • 쿼리 조각 및 하위 쿼리 재사용이 개선되었습니다.

    • Spark 시작 시 실행기를 사전 할당하도록 개선되었습니다.

    • 조인의 작은 쪽에 브로드캐스트 힌트가 포함되어 있으면 블룸 필터 조인이 더 이상 적용되지 않습니다.

  • Tez의 Hive 실행 시간 비교

    • Tez 관련 문제를 해결했습니다. Tez UI가 이제 여러 마스터 노드를 포함하는 EMR 클러스터에서 올바르게 작동합니다.

알려진 문제

  • 정렬 병합 조인에 대한 향상된 전체 스테이지 코드 생성 기능을 사용하면 메모리 압력을 높일 수 있습니다. 이 최적화는 성능을 향상시키지만 spark.yarn.executor.memoryOverheadFactor가 충분한 메모리를 제공하도록 조정되지 않은 경우 작업 재시도 또는 실패를 초래할 수 있습니다. 이 기능을 비활성화하려면 spark.sql.sortMergeJoinExec.extendedCodegen.enabled를 false로 설정하십시오.

  • Known issue in clusters with multiple master nodes and Kerberos authentication

    If you run clusters with multiple master nodes and Kerberos authentication in EMR releases 5.20.0 and later, you may encounter problems with cluster operations such as scale down or step submission, after the cluster has been running for some time. The time period depends on the Kerberos ticket validity period that you defined. The scale-down problem impacts both automatic scale-down and explicit scale down requests that you submitted. Additional cluster operations can also be impacted.

    Workaround:

    • SSH as hadoop user to the lead master node of the EMR cluster with multiple master nodes.

    • Run the following command to renew Kerberos ticket for hadoop user.

      kinit -kt <keytab_file> <principal>

      Typically, the keytab file is located at /etc/hadoop.keytab and the principal is in the form of hadoop/<hostname>@<REALM>.

    참고

    This workaround will be effective for the time period the Kerberos ticket is valid. This duration is 10 hours by default, but can configured by your Kerberos settings. You must re-run the above command once the Kerberos ticket expires.

릴리스 5.25.0

다음 릴리스 정보에는 Amazon EMR 릴리스 버전 5.25.0에 대한 정보가 포함됩니다. 변경 사항은 5.24.1에 관련됩니다.

최초 릴리스 날짜: 2019년 7월 17일

최종 업데이트 날짜: 2019년 10월 30일

Amazon EMR 5.25.0

업그레이드

  • AWS SDK for Java 1.11.566

  • Hive 2.3.5

  • Presto 0.220

  • Spark 2.4.3

  • TensorFlow 1.13.1

  • Tez 0.9.2

  • Zookeeper 3.4.14

새로운 기능

  • (2019년 10월 30일) Amazon EMR 버전 5.25.0부터는 콘솔에서 클러스터 요약 페이지 또는 애플리케이션 이력 탭을 사용해 Spark 기록 서버 UI에 연결할 수 있습니다. SSH 연결을 통해 웹 프록시를 설정하는 대신, Spark 기록 서버 UI에 액세스하여 애플리케이션 지표를 보고 활성 클러스터 및 종료된 클러스터에 대한 관련 로그 파일에 액세스할 수 있습니다. 자세한 내용은 Amazon EMR 관리 안내서영구 애플리케이션 사용자 인터페이스에 대한 클러스터 외부 액세스를 참조하세요.

변경 사항, 향상된 기능 및 해결된 문제

  • Spark

    • Bloom 필터로 입력을 사전 필터링하여 일부 조인의 성능을 개선했습니다. 이 최적화는 기본적으로 비활성화되어 있으며, Spark 구성 파라미터 spark.sql.bloomFilterJoin.enabledtrue로 설정하여 활성화할 수 있습니다.

    • 문자열 형식 열을 기준으로 그룹화하는 성능을 개선했습니다.

    • HBase를 설치하지 않고 클러스터에 대한 R4 인스턴스 유형의 핵심 구성 및 기본 Spark 실행기 메모리를 개선했습니다.

    • 잘린 테이블이 조인의 왼쪽에 있어야 하는 이전의 동적 파티션 잘라내기 기능에 대한 문제를 해결했습니다.

    • 별칭과 관련된 추가 사례를 적용하기 위해 INTERSECT 이전 DISTINCT 최적화를 개선했습니다.

    • DISTINCT 쿼리 이전 JOIN에 대한 SQL 계획 통계 추론을 개선했습니다. 이 개선 사항은 기본적으로 비활성화되어 있으며, Spark 구성 파라미터 spark.sql.statsImprovements.enabledtrue로 설정하여 활성화할 수 있습니다. 이 최적화는 Intersect 이전 Distinct 기능에 필요하며 spark.sql.optimizer.distinctBeforeIntersect.enabledtrue로 설정할 경우 자동으로 활성화됩니다.

    • 테이블 크기 및 필터에 따라 조인 순서를 최적화했습니다. 이 최적화는 기본적으로 비활성화되어 있으며, Spark 구성 파라미터 spark.sql.optimizer.sizeBasedJoinReorder.enabledtrue로 설정하여 활성화할 수 있습니다.

    자세한 내용은 Spark 성능 최적화를 참조하십시오.

  • EMRFS

    • 이제 EMRFS 설정 fs.s3.buckets.create.enabled가 기본적으로 비활성화됩니다. 테스트 결과 이 설정을 비활성화하면 성능이 향상되고 의도치 않은 S3 버킷 생성이 방지된다는 사실을 확인했습니다. 애플리케이션이 이 기능을 사용하는 경우 emrfs-site 구성 분류에서 속성 fs.s3.buckets.create.enabledtrue로 설정하여 활성화할 수 있습니다. 자세한 내용은 클러스터를 생성할 때 구성 제공 단원을 참조하십시오.

  • 보안 구성의 로컬 디스크 암호화 및 S3 암호화 개선(2019년 8월 5일)

    • 보안 구성 설정에서 로컬 디스크 암호화 설정과 Amazon S3 암호화 설정이 분리되었습니다.

    • EBS 암호화를 활성화하는 옵션이 5.24.0 이상 릴리스에 추가되었습니다. 이 옵션을 선택하면 스토리지 볼륨뿐만 아니라 루트 디바이스 볼륨도 암호화됩니다. 이전 버전에서는 사용자 지정 AMI를 사용하여 루트 디바이스 볼륨을 암호화해야 했습니다.

    • 자세한 내용은 Amazon EMR 관리 안내서암호화 옵션 단원을 참조하십시오.

알려진 문제

  • Known issue in clusters with multiple master nodes and Kerberos authentication

    If you run clusters with multiple master nodes and Kerberos authentication in EMR releases 5.20.0 and later, you may encounter problems with cluster operations such as scale down or step submission, after the cluster has been running for some time. The time period depends on the Kerberos ticket validity period that you defined. The scale-down problem impacts both automatic scale-down and explicit scale down requests that you submitted. Additional cluster operations can also be impacted.

    Workaround:

    • SSH as hadoop user to the lead master node of the EMR cluster with multiple master nodes.

    • Run the following command to renew Kerberos ticket for hadoop user.

      kinit -kt <keytab_file> <principal>

      Typically, the keytab file is located at /etc/hadoop.keytab and the principal is in the form of hadoop/<hostname>@<REALM>.

    참고

    This workaround will be effective for the time period the Kerberos ticket is valid. This duration is 10 hours by default, but can configured by your Kerberos settings. You must re-run the above command once the Kerberos ticket expires.

릴리스 5.24.1

다음 릴리스 정보에는 Amazon EMR 릴리스 버전 5.24.1에 대한 정보가 포함됩니다. 변경 사항은 5.24.0에 관련됩니다.

최초 릴리스 날짜: 2019년 6월 26일

변경 사항, 향상된 기능 및 해결된 문제

  • Updated the default Amazon Linux AMI for EMR to include important Linux kernel security updates, including the TCP SACK Denial of Service Issue (AWS-2019-005).

알려진 문제

  • Known issue in clusters with multiple master nodes and Kerberos authentication

    If you run clusters with multiple master nodes and Kerberos authentication in EMR releases 5.20.0 and later, you may encounter problems with cluster operations such as scale down or step submission, after the cluster has been running for some time. The time period depends on the Kerberos ticket validity period that you defined. The scale-down problem impacts both automatic scale-down and explicit scale down requests that you submitted. Additional cluster operations can also be impacted.

    Workaround:

    • SSH as hadoop user to the lead master node of the EMR cluster with multiple master nodes.

    • Run the following command to renew Kerberos ticket for hadoop user.

      kinit -kt <keytab_file> <principal>

      Typically, the keytab file is located at /etc/hadoop.keytab and the principal is in the form of hadoop/<hostname>@<REALM>.

    참고

    This workaround will be effective for the time period the Kerberos ticket is valid. This duration is 10 hours by default, but can configured by your Kerberos settings. You must re-run the above command once the Kerberos ticket expires.

릴리스 5.24.0

다음 출시 정보에는 Amazon EMR 릴리스 버전 5.24.0에 대한 정보가 포함됩니다. 변경 사항은 5.23.0에 관련됩니다.

최초 릴리스 날짜: 2019년 6월 11일

최종 업데이트 날짜: 2019년 8월 5일

업그레이드

  • Flink 1.8.0

  • Hue 4.4.0

  • JupyterHub 0.9.6

  • Livy 0.6.0

  • MxNet 1.4.0

  • Presto 0.219

  • Spark 2.4.2

  • AWS SDK for Java 1.11.546

  • 커넥터 및 드라이버:

    • DynamoDB 커넥터 4.9.0

    • MariaDB 커넥터 2.4.1

    • Amazon Redshift JDBC 드라이버 1.2.27.1051

변경 사항, 향상된 기능 및 해결된 문제

  • Spark

    • 파티션을 동적으로 삭제하는 최적화가 추가되었습니다. 최적화는 기본적으로 비활성화되어 있습니다. 활성화하려면 Spark 구성 파라미터 spark.sql.dynamicPartitionPruning.enabledtrue로 설정하십시오.

    • INTERSECT 쿼리의 성능을 개선했습니다. 이 최적화는 기본적으로 비활성화되어 있습니다. 활성화하려면 Spark 구성 파라미터 spark.sql.optimizer.distinctBeforeIntersect.enabledtrue로 설정하십시오.

    • 동일한 관계를 사용하는 집계로 스칼라 하위 쿼리를 평면화하는 최적화가 추가되었습니다. 최적화는 기본적으로 비활성화되어 있습니다. 활성화하려면 Spark 구성 파라미터 spark.sql.optimizer.flattenScalarSubqueriesWithAggregates.enabledtrue로 설정하십시오.

    • 전체 스테이지 코드 생성이 개선되었습니다.

    자세한 내용은 Spark 성능 최적화를 참조하십시오.

  • 보안 구성의 로컬 디스크 암호화 및 S3 암호화 개선(2019년 8월 5일)

    • 보안 구성 설정에서 로컬 디스크 암호화 설정과 Amazon S3 암호화 설정이 분리되었습니다.

    • EBS 암호화를 활성화하는 옵션이 추가되었습니다. 이 옵션을 선택하면 스토리지 볼륨뿐만 아니라 루트 디바이스 볼륨도 암호화됩니다. 이전 버전에서는 사용자 지정 AMI를 사용하여 루트 디바이스 볼륨을 암호화해야 했습니다.

    • 자세한 내용은 Amazon EMR 관리 안내서암호화 옵션 단원을 참조하십시오.

알려진 문제

  • Known issue in clusters with multiple master nodes and Kerberos authentication

    If you run clusters with multiple master nodes and Kerberos authentication in EMR releases 5.20.0 and later, you may encounter problems with cluster operations such as scale down or step submission, after the cluster has been running for some time. The time period depends on the Kerberos ticket validity period that you defined. The scale-down problem impacts both automatic scale-down and explicit scale down requests that you submitted. Additional cluster operations can also be impacted.

    Workaround:

    • SSH as hadoop user to the lead master node of the EMR cluster with multiple master nodes.

    • Run the following command to renew Kerberos ticket for hadoop user.

      kinit -kt <keytab_file> <principal>

      Typically, the keytab file is located at /etc/hadoop.keytab and the principal is in the form of hadoop/<hostname>@<REALM>.

    참고

    This workaround will be effective for the time period the Kerberos ticket is valid. This duration is 10 hours by default, but can configured by your Kerberos settings. You must re-run the above command once the Kerberos ticket expires.

릴리스 5.23.0

다음 출시 정보에는 Amazon EMR 릴리스 버전 5.23.0에 대한 정보가 포함됩니다. 변경 사항은 5.22.0에 관련됩니다.

최초 릴리스 날짜: 2019년 4월 1일

최종 업데이트 날짜: 2019년 4월 30일

업그레이드

  • AWS SDK for Java 1.11.519

새로운 기능

  • (2019년 4월 30일) Amazon EMR 5.23.0 이상에서는 3개의 마스터 노드를 포함하는 클러스터를 시작하여 YARN Resource Manager, HDFS Name Node, Spark, Hive, Ganglia 같은 애플리케이션의 고가용성을 지원할 수 있습니다. 이 기능을 사용하면 마스터 노드가 더 이상 잠재적 단일 장애 지점이 아닙니다. 마스터 노드 중 하나에 장애가 발생할 경우, Amazon EMR이 자동으로 대기 마스터 노드로 장애 조치하고 장애가 발생한 마스터 노드를 동일한 구성 및 부트스트랩 작업을 갖는 새로운 마스터 노드로 대체합니다. 자세한 내용은 마스터 노드 계획 및 구성을 참조하십시오.

알려진 문제

  • Tez UI(Amazon EMR 릴리스 버전 5.26.0에서 수정됨)

    Tez UI는 여러 마스터 노드를 포함하는 EMR 클러스터에서 작동하지 않습니다.

  • Hue(Amazon EMR 릴리스 버전 5.24.0에서 수정됨)

    • Amazon EMR에서 실행되는 Hue는 Solr을 지원하지 않습니다. Amazon EMR 릴리스 버전 5.20.0부터 잘못된 구성 문제로 인해 Solr이 활성화되고 다음과 유사한 무해한 오류 메시지가 표시됩니다.

      Solr server could not be contacted properly: HTTPConnectionPool('host=ip-xx-xx-xx-xx.ec2.internal', port=1978): Max retries exceeded with url: /solr/admin/info/system?user.name=hue&doAs=administrator&wt=json (Caused by NewConnectionError(': Failed to establish a new connection: [Errno 111] Connection refused',))

      Solr 오류 메시지를 표시하지 않으려면

      1. SSH를 사용하여 마스터 노드 명령줄을 연결합니다.

      2. 텍스트 편집기를 사용하여 hue.ini 파일을 엽니다. 예:

        sudo vim /etc/hue/conf/hue.ini

      3. "appblacklist"라는 용어를 검색하고 해당 행을 다음과 같이 수정합니다.

        appblacklist = search
      4. 변경 내용을 저장하고 다음 예와 같이 Hue를 다시 시작합니다.

        sudo stop hue; sudo start hue
  • Known issue in clusters with multiple master nodes and Kerberos authentication

    If you run clusters with multiple master nodes and Kerberos authentication in EMR releases 5.20.0 and later, you may encounter problems with cluster operations such as scale down or step submission, after the cluster has been running for some time. The time period depends on the Kerberos ticket validity period that you defined. The scale-down problem impacts both automatic scale-down and explicit scale down requests that you submitted. Additional cluster operations can also be impacted.

    Workaround:

    • SSH as hadoop user to the lead master node of the EMR cluster with multiple master nodes.

    • Run the following command to renew Kerberos ticket for hadoop user.

      kinit -kt <keytab_file> <principal>

      Typically, the keytab file is located at /etc/hadoop.keytab and the principal is in the form of hadoop/<hostname>@<REALM>.

    참고

    This workaround will be effective for the time period the Kerberos ticket is valid. This duration is 10 hours by default, but can configured by your Kerberos settings. You must re-run the above command once the Kerberos ticket expires.

릴리스 5.22.0

다음 출시 정보에는 Amazon EMR 릴리스 버전 5.22.0에 대한 정보가 포함됩니다. 변경 사항은 5.21.0에 관련됩니다.

중요

Amazon EMR 릴리스 버전 5.22.0부터 Amazon EMR은 AWS 서명 버전 4를 단독으로 사용하여 Amazon S3에 대한 요청을 인증합니다. 이전 Amazon EMR 릴리스 버전에서는 출시 정보에 AWS 서명 버전 4가 단독으로 사용된다고 표시되어 있지 않는 한, 서명 버전 2를 사용하는 경우도 있습니다. 자세한 내용은 Amazon Simple Storage Service 개발자 안내서요청 인증(AWS 서명 버전 4)요청 인증(AWS 서명 버전 2) 단원을 참조하십시오.

최초 릴리스 날짜: 2019년 3월 20일

업그레이드

  • Flink 1.7.1

  • HBase 1.4.9

  • Oozie 5.1.0

  • Phoenix 4.14.1

  • Zeppelin 0.8.1

  • 커넥터 및 드라이버:

    • DynamoDB Connector 4.8.0

    • MariaDB Connector 2.2.6

    • Amazon Redshift JDBC 드라이버 1.2.20.1043

새로운 기능

  • EBS 전용 스토리지를 사용하는 EC2 인스턴스 유형에 대한 기본 EBS 구성을 수정했습니다. Amazon EMR 릴리스 버전 5.22.0 이상을 사용하여 클러스터를 생성할 때 EBS 스토리지의 기본적인 양은 인스턴스 크기에 따라 증가합니다. 뿐만 아니라 증가한 스토리지를 여러 볼륨에 분할하여 향상된 IOPS 성능을 제공합니다. 다른 EBS 인스턴스 스토리지 구성을 사용하려는 경우 EMR 클러스터를 생성하거나 기존 클러스터에 노드를 추가할 때 이 구성을 지정할 수 있습니다. 각 인스턴스 유형에 대해 기본적으로 할당되는 스토리지 양 및 볼륨 수에 대한 자세한 내용은 Amazon EMR 관리 안내서인스턴스의 기본 EBS 스토리지 단원을 참조하십시오.

변경 사항, 향상된 기능 및 해결된 문제

  • Spark

    • YARN의 Spark에 새로운 구성 속성 spark.yarn.executor.memoryOverheadFactor를 추가했습니다. 이 속성의 값은 최소 384MB의 메모리 오버헤드 값을 실행기 메모리의 백분율로 설정하는 확장 팩터입니다. 메모리 오버헤드가 spark.yarn.executor.memoryOverhead를 사용하여 명시적으로 설정된 경우 이 속성은 아무 효과가 없습니다. 기본값은 18.75%를 나타내는 0.1875입니다. Amazon EMR의 기본값은 실행기 메모리 오버헤드를 위해 Spark에서 내부적으로 설정한 기본값 10%보다 더 많은 공간을 YARN 컨테이너에 남깁니다. TPC-DS 벤치마크 결과 Amazon EMR 기본값 18.75%로 설정하면 메모리 관련 오류가 경험적으로 적었습니다.

    • 성능 개선을 위해 SPARK-26316을 백포트했습니다.

  • Amazon EMR 버전 5.19.0, 5.20.0 및 5.21.0에서 YARN 노드 레이블은 HDFS 디렉터리에 저장됩니다. 이로 인해 경우에 따라 코어 노드 시작이 지연되어 클러스터가 시간 초과되고 시작이 실패할 수 있습니다. Amazon EMR 5.22.0부터 이 문제가 해결되었습니다. YARN 노드 레이블은 각 클러스터 노드의 로컬 디스크에 저장되어 HDFS에 종속되지 않습니다.

알려진 문제

  • Hue(Amazon EMR 릴리스 버전 5.24.0에서 수정됨)

    • Amazon EMR에서 실행되는 Hue는 Solr을 지원하지 않습니다. Amazon EMR 릴리스 버전 5.20.0부터 잘못된 구성 문제로 인해 Solr이 활성화되고 다음과 유사한 무해한 오류 메시지가 표시됩니다.

      Solr server could not be contacted properly: HTTPConnectionPool('host=ip-xx-xx-xx-xx.ec2.internal', port=1978): Max retries exceeded with url: /solr/admin/info/system?user.name=hue&doAs=administrator&wt=json (Caused by NewConnectionError(': Failed to establish a new connection: [Errno 111] Connection refused',))

      Solr 오류 메시지를 표시하지 않으려면

      1. SSH를 사용하여 마스터 노드 명령줄을 연결합니다.

      2. 텍스트 편집기를 사용하여 hue.ini 파일을 엽니다. 예:

        sudo vim /etc/hue/conf/hue.ini

      3. "appblacklist"라는 용어를 검색하고 해당 행을 다음과 같이 수정합니다.

        appblacklist = search
      4. 변경 내용을 저장하고 다음 예와 같이 Hue를 다시 시작합니다.

        sudo stop hue; sudo start hue
  • Known issue in clusters with multiple master nodes and Kerberos authentication

    If you run clusters with multiple master nodes and Kerberos authentication in EMR releases 5.20.0 and later, you may encounter problems with cluster operations such as scale down or step submission, after the cluster has been running for some time. The time period depends on the Kerberos ticket validity period that you defined. The scale-down problem impacts both automatic scale-down and explicit scale down requests that you submitted. Additional cluster operations can also be impacted.

    Workaround:

    • SSH as hadoop user to the lead master node of the EMR cluster with multiple master nodes.

    • Run the following command to renew Kerberos ticket for hadoop user.

      kinit -kt <keytab_file> <principal>

      Typically, the keytab file is located at /etc/hadoop.keytab and the principal is in the form of hadoop/<hostname>@<REALM>.

    참고

    This workaround will be effective for the time period the Kerberos ticket is valid. This duration is 10 hours by default, but can configured by your Kerberos settings. You must re-run the above command once the Kerberos ticket expires.

릴리스 5.21.1

다음 출시 정보에는 Amazon EMR 릴리스 버전 5.21.1에 대한 정보가 포함됩니다. 변경 사항은 5.21.0에 관련됩니다.

최초 릴리스 날짜: 2019년 7월 18일

변경 사항, 향상된 기능 및 해결된 문제

  • Updated the default Amazon Linux AMI for EMR to include important Linux kernel security updates, including the TCP SACK Denial of Service Issue (AWS-2019-005).

알려진 문제

  • Known issue in clusters with multiple master nodes and Kerberos authentication

    If you run clusters with multiple master nodes and Kerberos authentication in EMR releases 5.20.0 and later, you may encounter problems with cluster operations such as scale down or step submission, after the cluster has been running for some time. The time period depends on the Kerberos ticket validity period that you defined. The scale-down problem impacts both automatic scale-down and explicit scale down requests that you submitted. Additional cluster operations can also be impacted.

    Workaround:

    • SSH as hadoop user to the lead master node of the EMR cluster with multiple master nodes.

    • Run the following command to renew Kerberos ticket for hadoop user.

      kinit -kt <keytab_file> <principal>

      Typically, the keytab file is located at /etc/hadoop.keytab and the principal is in the form of hadoop/<hostname>@<REALM>.

    참고

    This workaround will be effective for the time period the Kerberos ticket is valid. This duration is 10 hours by default, but can configured by your Kerberos settings. You must re-run the above command once the Kerberos ticket expires.

릴리스 5.21.0

다음 출시 정보에는 Amazon EMR 릴리스 버전 5.21.0에 대한 정보가 포함됩니다. 변경 사항은 5.20.0에 관련됩니다.

최초 릴리스 날짜: 2019년 2월 18일

최종 업데이트 날짜: 2019년 4월 3일

업그레이드

  • Flink 1.7.0

  • Presto 0.215

  • AWS SDK for Java 1.11.479

새로운 기능

  • (2019년 4월 3일) Amazon EMR 버전 5.21.0 이상에서는 클러스터 구성을 재정의할 수 있으며, 실행 중인 클러스터의 각 인스턴스 그룹에 대해 추가 구성 분류를 지정할 수 있습니다. Amazon EMR 콘솔, AWS Command Line Interface(AWS CLI) 또는 AWS SDK를 사용하여 이 작업을 수행할 수 있습니다. 자세한 내용은 실행 중인 클러스터의 인스턴스 그룹에 대해 구성 제공 단원을 참조하십시오.

변경 사항, 향상된 기능 및 해결된 문제

알려진 문제

  • Hue(Amazon EMR 릴리스 버전 5.24.0에서 수정됨)

    • Amazon EMR에서 실행되는 Hue는 Solr을 지원하지 않습니다. Amazon EMR 릴리스 버전 5.20.0부터 잘못된 구성 문제로 인해 Solr이 활성화되고 다음과 유사한 무해한 오류 메시지가 표시됩니다.

      Solr server could not be contacted properly: HTTPConnectionPool('host=ip-xx-xx-xx-xx.ec2.internal', port=1978): Max retries exceeded with url: /solr/admin/info/system?user.name=hue&doAs=administrator&wt=json (Caused by NewConnectionError(': Failed to establish a new connection: [Errno 111] Connection refused',))

      Solr 오류 메시지를 표시하지 않으려면

      1. SSH를 사용하여 마스터 노드 명령줄을 연결합니다.

      2. 텍스트 편집기를 사용하여 hue.ini 파일을 엽니다. 예:

        sudo vim /etc/hue/conf/hue.ini

      3. "appblacklist"라는 용어를 검색하고 해당 행을 다음과 같이 수정합니다.

        appblacklist = search
      4. 변경 내용을 저장하고 다음 예와 같이 Hue를 다시 시작합니다.

        sudo stop hue; sudo start hue
  • Tez의 Hive 실행 시간 비교

    • 이 문제는 Amazon EMR 5.22.0에서 해결되었습니다.

      클러스터 마스터 노드에 대한 SSH 연결을 통해 http://MasterDNS:8080/tez-ui의 Tez UI에 연결할 때 "Adapter operation failed - Timeline server (ATS) is out of reach. Either it is down, or CORS is not enabled(어댑터 작동이 실패했습니다. - 타임라인 서버(ATS)가 범위를 벗어났습니다. 다운되었거나 CORS가 활성화되어 있지 않습니다.)"라는 오류가 나타나거나, 작업 중 예기치 않게 N/A(해당 사항 없음)가 표시됩니다.

      이 오류는 Tez UI가 마스터 노드의 호스트 이름 대신 localhost를 사용하여 YARN Timeline Server에 요청할 때 발생합니다. 이 문제를 해결하기 위해 스크립트를 부트스트랩 작업 또는 단계로 실행할 수 있습니다. 스크립트는 Tez configs.env 파일의 호스트 이름을 업데이트합니다. 스크립트에 대한 자세한 내용과 위치를 보려면 부트스트랩 지침을 참조하십시오.

  • Amazon EMR 버전 5.19.0, 5.20.0 및 5.21.0에서 YARN 노드 레이블은 HDFS 디렉터리에 저장됩니다. 이로 인해 경우에 따라 코어 노드 시작이 지연되어 클러스터가 시간 초과되고 시작이 실패할 수 있습니다. Amazon EMR 5.22.0부터 이 문제가 해결되었습니다. YARN 노드 레이블은 각 클러스터 노드의 로컬 디스크에 저장되어 HDFS에 종속되지 않습니다.

  • Known issue in clusters with multiple master nodes and Kerberos authentication

    If you run clusters with multiple master nodes and Kerberos authentication in EMR releases 5.20.0 and later, you may encounter problems with cluster operations such as scale down or step submission, after the cluster has been running for some time. The time period depends on the Kerberos ticket validity period that you defined. The scale-down problem impacts both automatic scale-down and explicit scale down requests that you submitted. Additional cluster operations can also be impacted.

    Workaround:

    • SSH as hadoop user to the lead master node of the EMR cluster with multiple master nodes.

    • Run the following command to renew Kerberos ticket for hadoop user.

      kinit -kt <keytab_file> <principal>

      Typically, the keytab file is located at /etc/hadoop.keytab and the principal is in the form of hadoop/<hostname>@<REALM>.

    참고

    This workaround will be effective for the time period the Kerberos ticket is valid. This duration is 10 hours by default, but can configured by your Kerberos settings. You must re-run the above command once the Kerberos ticket expires.

릴리스 5.20.0

다음 출시 정보에는 Amazon EMR 릴리스 버전 5.20.0에 대한 정보가 포함됩니다. 변경 사항은 5.19.0에 관련됩니다.

최초 릴리스 날짜: 2018년 12월 18일

마지막 업데이트 날짜: 2019년 1월 22일

업그레이드

  • Flink 1.6.2

  • HBase 1.4.8

  • Hive 2.3.4

  • Hue 4.3.0

  • MXNet 1.3.1

  • Presto 0.214

  • Spark 2.4.0

  • TensorFlow 1.12.0

  • Tez 0.9.1

  • AWS SDK for Java 1.11.461

새로운 기능

  • (2019년 1월 22일) Amazon EMR의 Kerberos가 외부 KDC의 인증 보안 주체를 지원하도록 개선되었습니다. 이는 여러 클러스터가 하나의 외부 KDC를 공유할 수 있기 때문에 보안 주체 관리를 중앙 집중화합니다. 또한 외부 KDC는 Active Directory 도메인과 교차 영역 신뢰를 가질 수 있습니다. 이를 통해 모든 클러스터는 Active Directory의 보안 주체를 인증할 수 있습니다. 자세한 정보는 Amazon EMR 관리 안내서Kerberos 인증 사용을 참조하십시오.

변경 사항, 향상된 기능 및 해결된 문제

  • Amazon EMR용 기본 Amazon Linux AMI

    • Python3 패키지가 python 3.4에서 3.6으로 업그레이드되었습니다.

  • EMRFS S3 최적화 커미터

    • EMRFS S3 최적화 커미터가 이제 기본적으로 활성화되며 쓰기 성능을 향상시킵니다. 자세한 정보는 EMRFS S3 최적화된 커미터 사용 단원을 참조하십시오.

  • Hive

  • Glue와 Spark 및 Hive

    • EMR 5.20.0 이상에서는 AWS Glue 데이터 카탈로그를 메타스토어로 사용할 경우 Spark 및 Hive에 대해 병렬 파티션 잘라내기가 자동으로 활성화됩니다. 이 변경 사항은 여러 요청을 병렬로 실행하여 파티션을 검색함으로써 쿼리 계획 시간을 크게 단축합니다. 동시에 실행할 수 있는 총 세그먼트 수는 1~10입니다. 기본값은 5이며, 또한 권장 설정입니다. hive-site 구성 분류에서 aws.glue.partition.num.segments 속성을 지정하여 이 설정을 변경할 수 있습니다. 조절이 발생할 경우 값을 1로 변경하여 기능을 끌 수 있습니다. 자세한 내용은 AWS Glue 세그먼트 구조 단원을 참조하십시오.

알려진 문제

  • Hue(Amazon EMR 릴리스 버전 5.24.0에서 수정됨)

    • Amazon EMR에서 실행되는 Hue는 Solr을 지원하지 않습니다. Amazon EMR 릴리스 버전 5.20.0부터 잘못된 구성 문제로 인해 Solr이 활성화되고 다음과 유사한 무해한 오류 메시지가 표시됩니다.

      Solr server could not be contacted properly: HTTPConnectionPool('host=ip-xx-xx-xx-xx.ec2.internal', port=1978): Max retries exceeded with url: /solr/admin/info/system?user.name=hue&doAs=administrator&wt=json (Caused by NewConnectionError(': Failed to establish a new connection: [Errno 111] Connection refused',))

      Solr 오류 메시지를 표시하지 않으려면

      1. SSH를 사용하여 마스터 노드 명령줄을 연결합니다.

      2. 텍스트 편집기를 사용하여 hue.ini 파일을 엽니다. 예:

        sudo vim /etc/hue/conf/hue.ini

      3. "appblacklist"라는 용어를 검색하고 해당 행을 다음과 같이 수정합니다.

        appblacklist = search
      4. 변경 내용을 저장하고 다음 예와 같이 Hue를 다시 시작합니다.

        sudo stop hue; sudo start hue
  • Tez의 Hive 실행 시간 비교

    • 이 문제는 Amazon EMR 5.22.0에서 해결되었습니다.

      클러스터 마스터 노드에 대한 SSH 연결을 통해 http://MasterDNS:8080/tez-ui의 Tez UI에 연결할 때 "Adapter operation failed - Timeline server (ATS) is out of reach. Either it is down, or CORS is not enabled(어댑터 작동이 실패했습니다. - 타임라인 서버(ATS)가 범위를 벗어났습니다. 다운되었거나 CORS가 활성화되어 있지 않습니다.)"라는 오류가 나타나거나, 작업 중 예기치 않게 N/A(해당 사항 없음)가 표시됩니다.

      이 오류는 Tez UI가 마스터 노드의 호스트 이름 대신 localhost를 사용하여 YARN Timeline Server에 요청할 때 발생합니다. 이 문제를 해결하기 위해 스크립트를 부트스트랩 작업 또는 단계로 실행할 수 있습니다. 스크립트는 Tez configs.env 파일의 호스트 이름을 업데이트합니다. 스크립트에 대한 자세한 내용과 위치를 보려면 부트스트랩 지침을 참조하십시오.

  • Amazon EMR 버전 5.19.0, 5.20.0 및 5.21.0에서 YARN 노드 레이블은 HDFS 디렉터리에 저장됩니다. 이로 인해 경우에 따라 코어 노드 시작이 지연되어 클러스터가 시간 초과되고 시작이 실패할 수 있습니다. Amazon EMR 5.22.0부터 이 문제가 해결되었습니다. YARN 노드 레이블은 각 클러스터 노드의 로컬 디스크에 저장되어 HDFS에 종속되지 않습니다.

  • Known issue in clusters with multiple master nodes and Kerberos authentication

    If you run clusters with multiple master nodes and Kerberos authentication in EMR releases 5.20.0 and later, you may encounter problems with cluster operations such as scale down or step submission, after the cluster has been running for some time. The time period depends on the Kerberos ticket validity period that you defined. The scale-down problem impacts both automatic scale-down and explicit scale down requests that you submitted. Additional cluster operations can also be impacted.

    Workaround:

    • SSH as hadoop user to the lead master node of the EMR cluster with multiple master nodes.

    • Run the following command to renew Kerberos ticket for hadoop user.

      kinit -kt <keytab_file> <principal>

      Typically, the keytab file is located at /etc/hadoop.keytab and the principal is in the form of hadoop/<hostname>@<REALM>.

    참고

    This workaround will be effective for the time period the Kerberos ticket is valid. This duration is 10 hours by default, but can configured by your Kerberos settings. You must re-run the above command once the Kerberos ticket expires.

릴리스 5.19.0

다음 출시 정보에는 Amazon EMR 릴리스 버전 5.19.0에 대한 정보가 나와 있습니다. 변경 사항은 5.18.0에 관련됩니다.

최초 릴리스 날짜: 2018년 11월 7일

최종 업데이트: 2018년 11월 19일

업그레이드

  • Hadoop 2.8.5

  • Flink 1.6.1

  • JupyterHub 0.9.4

  • MXNet 1.3.0

  • Presto 0.212

  • TensorFlow 1.11.0

  • Zookeeper 3.4.13

  • AWS SDK for Java 1.11.433

새로운 기능

  • (2018년 11월 19일) EMR 노트북는 Jupyter 노트북 기반의 관리형 환경입니다. PySpark, Spark SQL, Spark R, Scala에 대한 Spark 매직 커널을 지원합니다. EMR 노트북는 Amazon EMR 릴리스 버전 5.18.0 이상을 사용하여 만든 클러스터에 사용할 수 있습니다. 자세한 정보는 Amazon EMR 관리 안내서EMR 노트북 사용을 참조하십시오.

  • Spark 및 EMRFS를 사용하여 Parquet 파일을 작성할 때 EMRFS S3 최적화 커미터를 사용할 수 있습니다. 이 커미터는 쓰기 성능을 향상시킵니다. 자세한 정보는 EMRFS S3 최적화된 커미터 사용 단원을 참조하십시오.

변경 사항, 향상된 기능 및 해결된 문제

  • YARN

  • Amazon EMR용 기본 Amazon Linux AMI

    • ruby18, php56, gcc48이 이제 기본적으로 설치되지 않습니다. 필요할 경우 yum을 사용하여 설치할 수 있습니다.

    • aws-java-sdk ruby gem이 이제 기본적으로 설치되지 않습니다. 필요할 경우 gem install aws-java-sdk를 사용하여 설치할 수 있습니다. 특정 구성 요소도 설치할 수 있습니다. 예: gem install aws-java-sdk-s3.

알려진 문제

  • EMR 노트북 - 일부 환경에서는 여러 노트북 편집기를 열어 놓을 경우 노트북 편집기가 클러스터에 연결할 수 없게 나타날 수 있습니다. 이 경우 브라우저 쿠키를 지우고 노트북 편집기를 다시 여십시오.

  • CloudWatch ContainerPending 지표 및 자동 조정 - (5.20.0에서 수정됨) Amazon EMR에서는 ContainerPending에 대해 음수 값을 내보낼 수 있습니다. 자동 조정 규칙에 ContainerPending을 사용할 경우 자동 조정이 예상대로 작동하지 않습니다. 자동 조정에 ContainerPending을 사용하지 마십시오.

  • Amazon EMR 버전 5.19.0, 5.20.0 및 5.21.0에서 YARN 노드 레이블은 HDFS 디렉터리에 저장됩니다. 이로 인해 경우에 따라 코어 노드 시작이 지연되어 클러스터가 시간 초과되고 시작이 실패할 수 있습니다. Amazon EMR 5.22.0부터 이 문제가 해결되었습니다. YARN 노드 레이블은 각 클러스터 노드의 로컬 디스크에 저장되어 HDFS에 종속되지 않습니다.

릴리스 5.18.0

다음 출시 정보에는 Amazon EMR 릴리스 버전 5.18.0에 대한 정보가 나와 있습니다. 변경 사항은 5.17.0에 관련됩니다.

최초 릴리스 날짜: 2018년 10월 24일

업그레이드

  • Flink 1.6.0

  • HBase 1.4.7

  • Presto 0.210

  • Spark 2.3.2

  • Zeppelin 0.8.0

새로운 기능

  • Amazon EMR 5.18.0부터는, Amazon EMR 아티팩트 리포지토리를 사용하여 특정 Amazon EMR 릴리스 버전에서 사용할 수 있는 정확한 라이브러리 버전과 종속 프로그램에 대해 작업 코드를 빌드할 수 있습니다. 자세한 정보는 Amazon EMR 아티팩트 리포지토리를 사용하여 종속성 확인 단원을 참조하십시오.

변경 사항, 향상된 기능 및 해결된 문제

릴리스 5.17.1

다음 출시 정보에는 Amazon EMR 릴리스 버전 5.17.1에 대한 정보가 포함됩니다. 변경 사항은 5.17.0에 관련됩니다.

최초 릴리스 날짜: 2019년 7월 18일

변경 사항, 향상된 기능 및 해결된 문제

  • Updated the default Amazon Linux AMI for EMR to include important Linux kernel security updates, including the TCP SACK Denial of Service Issue (AWS-2019-005).

릴리스 5.17.0

다음 출시 정보에는 Amazon EMR 릴리스 버전 5.17.0에 대한 정보가 포함됩니다. 변경 사항은 5.16.0에 관련됩니다.

최초 릴리스 날짜: 2018년 8월 30일

업그레이드

  • Flink 1.5.2

  • HBase 1.4.6

  • Presto 0.206

새로운 기능

  • Tensorflow에 대한 지원을 추가했습니다. 자세한 정보는 TensorFlow 단원을 참조하십시오.

변경 사항, 향상된 기능 및 해결된 문제

알려진 문제

  • Kerberos 인증을 사용하는 클러스터를 생성하고 Livy를 설치하면 단순 인증이 활성화되지 않았다는 오류가 발생하면서 Livy가 실패합니다. Livy 서버를 재부팅하면 문제가 해결됩니다. 차선책으로, 클러스터 생성 중에 마스터 노드에서 sudo restart livy-server를 실행하는 단계를 추가합니다.

  • 생성 날짜가 2018-08-11인 Amazon Linux AMI를 기반으로 사용자 지정 Amazon Linux AMI를 사용하면 Oozie 서버가 시작에 실패합니다. Oozie를 사용하는 경우 생성 날짜가 다른 Amazon Linux AMI ID를 기반으로 사용자 지정 AMI를 생성하십시오. 적절한 Amazon Linux AMI를 기반으로 선택할 수 있도록 다음 AWS CLI 명령을 사용하여 2018.03 버전의 모든 HVM Amazon Linux AMI에 대한 이미지 ID의 목록을 릴리스 날짜와 함께 반환할 수 있습니다. MyRegion을 해당 리전 식별자(예: us-west-2)로 바꿉니다.

    aws ec2 --region MyRegion describe-images --owner amazon --query 'Images[?Name!=`null`]|[?starts_with(Name, `amzn-ami-hvm-2018.03`) == `true`].[CreationDate,ImageId,Name]' --output text | sort -rk1

릴리스 5.16.0

다음 출시 정보에는 Amazon EMR 릴리스 버전 5.16.0에 대한 정보가 포함됩니다. 변경 사항은 5.15.0에 관련됩니다.

최초 릴리스 날짜: 2018년 7월 19일

업그레이드

  • Hadoop 2.8.4

  • Flink 1.5.0

  • Livy 0.5.0

  • MXNet 1.2.0

  • Phoenix 4.14.0

  • Presto 0.203

  • Spark 2.3.1

  • AWS SDK for Java 1.11.336

  • CUDA 9.2

  • Redshift JDBC 드라이버 1.2.15.1025

변경 사항, 향상된 기능 및 해결된 문제

  • HBase

  • Presto

  • Spark

    • Amazon EMR 릴리스 버전 5.16.0부터 사용할 수 있는 Apache Spark 버전 2.3.1은 CVE-2018-8024CVE-2018-1334를 해결합니다. Spark 이전 버전을 Spark 버전 2.3.1 이상으로 마이그레이션하도록 권장합니다.

알려진 문제

  • 이 릴리스 버전은 c1.medium 또는 m1.small 인스턴스 유형을 지원하지 않습니다. 둘 중 어느 쪽이든 이런 인스턴스 유형을 사용하는 클러스터는 시작되지 않습니다. 차선책으로 다른 인스턴스 유형을 지정하거나 다른 릴리스 버전을 사용하십시오.

  • Kerberos 인증을 사용하는 클러스터를 생성하고 Livy를 설치하면 단순 인증이 활성화되지 않았다는 오류가 발생하면서 Livy가 실패합니다. Livy 서버를 재부팅하면 문제가 해결됩니다. 차선책으로, 클러스터 생성 중에 마스터 노드에서 sudo restart livy-server를 실행하는 단계를 추가합니다.

  • After the master node reboots or the instance controller restarts, the CloudWatch metrics will not be collected and the automatic scaling feature will not be available in Amazon EMR version 5.14.0, 5.15.0, or 5.16.0. This issue is fixed in Amazon EMR version 5.17.0.

릴리스 5.15.0

다음 릴리스 정보에는 Amazon EMR 릴리스 버전 5.15.0에 대한 정보가 포함됩니다. 변경 사항은 5.14.0에 관련됩니다.

최초 릴리스 날짜: 2018년 6월 21일

업그레이드

  • HBase를 1.4.4로 업그레이드

  • Hive를 2.3.3으로 업그레이드

  • Hue를 4.2.0으로 업그레이드

  • Oozie를 5.0.0로 업그레이드

  • Zookeeper를 3.4.12로 업그레이드

  • AWS SDK를 1.11.333으로 업그레이드

변경 사항, 향상된 기능 및 해결된 문제

  • Hive

  • Hue

    • Kerberos 사용 시 Livy로 올바로 인증하도록 Hue를 업데이트했습니다. 이제 Amazon EMR에서 Kerberos 사용 시 Livy를 지원합니다.

  • JupyterHub

    • Amazon EMR이 LDAP 클라이언트 라이브러리를 기본으로 설치하도록 JupyterHub를 업데이트했습니다.

    • 자체 서명 인증서를 생성하는 스크립트 오류를 수정했습니다. 이 문제에 대한 자세한 내용은 Release Notes를 참조하십시오.

알려진 문제

  • 이 릴리스 버전은 c1.medium 또는 m1.small 인스턴스 유형을 지원하지 않습니다. 둘 중 어느 쪽이든 이런 인스턴스 유형을 사용하는 클러스터는 시작되지 않습니다. 차선책으로 다른 인스턴스 유형을 지정하거나 다른 릴리스 버전을 사용하십시오.

  • After the master node reboots or the instance controller restarts, the CloudWatch metrics will not be collected and the automatic scaling feature will not be available in Amazon EMR version 5.14.0, 5.15.0, or 5.16.0. This issue is fixed in Amazon EMR version 5.17.0.

릴리스 5.14.1

다음 출시 정보에는 Amazon EMR 릴리스 버전 5.14.1에 대한 정보가 포함됩니다. 변경 사항은 5.14.0에 관련됩니다.

최초 릴리스 날짜: 2018년 10월 17일

잠재적인 보안 취약점을 해결하기 위해 Amazon EMR의 기본 AMI를 업데이트했습니다.

릴리스 5.14.0

다음 출시 정보에는 Amazon EMR 릴리스 버전 5.14.0에 대한 정보가 포함됩니다. 변경 사항은 5.13.0에 관련됩니다.

최초 릴리스 날짜: 2018년 6월 4일

업그레이드

  • Apache Flink를 1.4.2로 업그레이드

  • Apache MXnet을 1.1.0으로 업그레이드

  • Apache Sqoop를 1.4.7로 업그레이드

새로운 기능

  • JupyterHub 지원을 추가했습니다. 자세한 내용은 JupyterHub 단원을 참조하십시오.

변경 사항, 향상된 기능 및 해결된 문제

  • EMRFS

    • Amazon S3에 대한 요청의 userAgent 문자열이 호출하는 보안 주체의 사용자 및 그룹 정보를 포함하도록 업데이트되었습니다. 보다 포괄적인 요청 추적을 위해 이 문자열을 AWS CloudTrail 로그와 함께 사용할 수 있습니다.

  • HBase

    • 포함된 HBASE-20447은 특히 분할된 리전과 함께 캐시 문제를 야기할 수 있는 문제를 해결합니다.

  • MXnet

    • OpenCV 라이브러리를 추가했습니다.

  • Spark

    • Spark가 EMRFS를 사용하여 Amazon S3 위치에 Parquet 파일을 쓸 때, FileOutputCommitter 알고리즘이 버전 1 대신 버전 2를 사용하도록 업데이트되었습니다. 따라서 이름 변경 횟수가 감소하여 애플리케이션 성능이 개선됩니다. 다음 애플리케이션에는 이 변경이 영향을 미치지 않습니다.

      • Spark 이외의 애플리케이션

      • HDFS(여전히 버전 1의 FileOutputCommitter를 사용)와 같이 다른 파일 시스템에 쓰는 애플리케이션

      • 텍스트 또는 csv 같이 이미 EMRFS 직접 쓰기를 사용하는 다른 출력 형식을 사용하는 애플리케이션

알려진 문제

  • JupyterHub

    • 클러스터를 생성할 때 구성 분류를 사용하여 JupyterHub 및 개별 Jupyter 노트북을 설정하는 것은 지원되지 않습니다. 각 사용자에 대해 수동으로 jupyterhub_config.py 파일 및 jupyter_notebook_config.py 파일을 편집하십시오. 자세한 내용은 JupyterHub 구성 단원을 참조하십시오.

    • JupyterHub는 프라이빗 서브넷 내의 클러스터에서 시작되지 않으며 Error: ENOENT: no such file or directory, open '/etc/jupyter/conf/server.crt' 메시지와 함께 실패합니다. 이는 자체 서명된 인증서를 생성하는 스크립트의 오류에 의해 야기됩니다. 다음 차선책을 사용하여 자체 서명된 인증서를 생성합니다. 모든 명령은 마스터 노드에 연결되어 있는 동안 수행됩니다.

      1. 컨테이너에서 마스터 노드로 인증서 생성 스크립트를 복사합니다.

        sudo docker cp jupyterhub:/tmp/gen_self_signed_cert.sh ./
      2. 아래와 같이 텍스트 편집기를 사용하여 23행을 변경하고 퍼블릭 호스트 이름을 로컬 호스트 이름으로 변경합니다.

        local hostname=$(curl -s $EC2_METADATA_SERVICE_URI/local-hostname)
      3. 스크립트를 실행하여 자체 서명된 인증서를 생성합니다.

        sudo bash ./gen_self_signed_cert.sh
      4. 스크립트가 생성하는 인증서 파일을 /etc/jupyter/conf/ 디렉터리로 이동합니다.

        sudo mv /tmp/server.crt /tmp/server.key /etc/jupyter/conf/

      JupyterHub의 재시작과 200 응답 코드의 반환을 확인하기 위해 jupyter.log 파일을 tail할 수 있습니다. 예:

      tail -f /var/log/jupyter/jupyter.log

      그러면 다음과 비슷한 응답이 돌아옵니다.

      # [I 2018-06-14 18:56:51.356 JupyterHub app:1581] JupyterHub is now running at https://:9443/ # 19:01:51.359 - info: [ConfigProxy] 200 GET /api/routes
  • After the master node reboots or the instance controller restarts, the CloudWatch metrics will not be collected and the automatic scaling feature will not be available in Amazon EMR version 5.14.0, 5.15.0, or 5.16.0. This issue is fixed in Amazon EMR version 5.17.0.

릴리스 5.13.0

다음 릴리스 정보에는 Amazon EMR 릴리스 버전 5.13.0에 대한 정보가 포함됩니다. 변경 사항은 5.12.0에 관련됩니다.

업그레이드

  • Spark를 2.3.0으로 업그레이드

  • HBase를 1.4.2로 업그레이드

  • Presto를 0.194로 업그레이드

  • AWS Java SDK를 1.11.297로 업그레이드

변경 사항, 향상된 기능 및 해결된 문제

  • Hive

    • HIVE-15436을 백포트했습니다. Hive API를 뷰만 반환하도록 개선했습니다.

알려진 문제

  • 현재 MXNet에는 OpenCV 라이브러리가 포함되어 있지 않습니다.

릴리스 5.12.2

다음 출시 정보에는 Amazon EMR 릴리스 버전 5.12.2에 대한 정보가 포함됩니다. 변경 사항은 5.12.1에 관련됩니다.

최초 릴리스 날짜: 2018년 8월 29일

변경 사항, 향상된 기능 및 해결된 문제

  • 이 릴리스는 잠재적인 보안 취약점을 해결합니다.

릴리스 5.12.1

다음 릴리스 정보에는 Amazon EMR 릴리스 버전 5.12.1에 대한 정보가 포함됩니다. 변경 사항은 5.12.0에 관련됩니다.

최초 릴리스 날짜: 2018년 3월 29일

변경 사항, 향상된 기능 및 해결된 문제

  • 잠재적인 취약점을 해결하기 위해 Amazon EMR용 기본 Amazon Linux AMI의 Amazon Linux 커널을 업데이트했습니다.

릴리스 5.12.0

다음 릴리스 정보에는 Amazon EMR 릴리스 버전 5.12.0에 대한 정보가 포함됩니다. 변경 사항은 5.11.1에 관련됩니다.

업그레이드

변경 사항, 향상된 기능 및 해결된 문제

  • Hadoop

    • yarn.resourcemanager.decommissioning.timeout 속성을 yarn.resourcemanager.nodemanager-graceful-decommission-timeout-secs로 변경했습니다. 이 속성을 사용하여 클러스터 축소를 사용자 지정할 수 있습니다. 자세한 내용은 Amazon EMR 관리 안내서클러스터 축소를 참조하십시오.

    • Hadoop CLI는 직접 복사를 지정하는 -d(복사) 명령에 cp 옵션을 추가했습니다. 이를 사용하면 중간 .COPYING 파일을 생성하지 않아도 되므로 Amazon S3 사이에서 데이터를 더 빠르게 복사할 수 있습니다. 자세한 내용은 HADOOP-12384를 참조하십시오.

  • Pig

    • Pig 환경 속성의 구성을 단순화하는 pig-env 구성 분류를 추가했습니다. 자세한 내용은 애플리케이션 구성 단원을 참조하십시오.

  • Presto

    • Presto presto-connector-redshift 구성 파일에서 값을 구성하는 데 사용할 수 있는 redshift.properties 구성 분류를 추가했습니다. 자세한 내용은 Presto 문서의 Redshift Connector애플리케이션 구성 단원을 참조하십시오.

    • EMRFS에 대한 Presto 지원이 추가되었으며 이것이 기본 구성입니다. 이전 Amazon EMR 릴리스 버전에는 유일한 옵션인 PrestoS3FileSystem이 사용되었습니다. 자세한 내용은 EMMRFS 및 PrestoS3FileSystem 구성 단원을 참조하십시오.

      참고

      Amazon EMR 릴리스 버전 5.12.0을 사용하여 Amazon S3에서 기본 데이터를 쿼리할 때 구성 문제로 인해 Presto 오류가 발생할 수 있습니다. 이는 Presto가 emrfs-site.xml에서 구성 분류 값을 가져오지 못하기 때문입니다. 차선책으로 usr/lib/presto/plugin/hive-hadoop2/ 아래에 emrfs 하위 디렉터리를 만들고, usr/lib/presto/plugin/hive-hadoop2/emrfs에서 기존 /usr/share/aws/emr/emrfs/conf/emrfs-site.xml 파일에 대한 symlink를 생성한 후, presto-server 프로세스를 다시 시작합니다(sudo presto-server stop, sudo presto-server start를 차례로 실행).

  • Spark

알려진 문제

  • MXNet에는 OpenCV 라이브러리가 포함되어 있지 않습니다.

  • 클러스터 노드에 R이 기본적으로 설치되어 있지 않으므로 사용자 지정 AMI를 사용하여 만든 클러스터에는 SparkR을 사용할 수 없습니다.

릴리스 5.11.3

다음 출시 정보에는 Amazon EMR 릴리스 버전 5.11.3에 대한 정보가 포함됩니다. 변경 사항은 5.11.2에 관련됩니다.

최초 릴리스 날짜: 2019년 7월 18일

변경 사항, 향상된 기능 및 해결된 문제

  • Updated the default Amazon Linux AMI for EMR to include important Linux kernel security updates, including the TCP SACK Denial of Service Issue (AWS-2019-005).

릴리스 5.11.2

다음 출시 정보에는 Amazon EMR 릴리스 버전 5.11.2에 대한 정보가 포함됩니다. 변경 사항은 5.11.1에 관련됩니다.

최초 릴리스 날짜: 2018년 8월 29일

변경 사항, 향상된 기능 및 해결된 문제

  • 이 릴리스는 잠재적인 보안 취약점을 해결합니다.

릴리스 5.11.1

다음 릴리스 정보에는 Amazon EMR 버전 5.11.1 릴리스에 대한 정보가 포함됩니다. 변경 사항은 Amazon EMR 5.11.0 릴리스에 관련됩니다.

최초 릴리스 날짜: 2018년 1월 22일

변경 사항, 향상된 기능 및 해결된 문제

  • 추론적 실행과 연결된 취약성을 보완하기 위해 Amazon EMR에 대한 기본 Amazon Linux AMI의 Amazon Linux 커널을 업데이트했습니다(CVE-2017-5715, CVE-2017-5753 및 CVE-2017-5754). 자세한 내용은 https://aws.amazon.com/security/security-bulletins/AWS-2018-013/ 단원을 참조하십시오.

알려진 문제

  • MXNet에는 OpenCV 라이브러리가 포함되지 않습니다.

  • Hive 2.3.2에서는 기본적으로 hive.compute.query.using.stats=true를 설정합니다. 따라서 쿼리에서는 데이터를 직접 가져오지 않고 기존 통계에서 데이터를 가져오므로 혼동될 수 있습니다. 예를 들어, hive.compute.query.using.stats=true인 테이블이 있을 때 새 파일을 LOCATION 테이블에 업로드하고 테이블에서 SELECT COUNT(*) 쿼리를 실행하면 추가된 행이 선택되지 않고 통계에 있는 수치가 반환됩니다.

    차선책으로 ANALYZE TABLE 명령을 사용하여 새 통계를 수집하거나 hive.compute.query.using.stats=false를 설정합니다. 자세한 내용은 Apache Hive 설명서의 Statistics in Hive를 참조하십시오.

릴리스 5.11.0

다음 릴리스 정보에는 Amazon EMR 버전 5.11.0 릴리스에 대한 정보가 포함됩니다. 변경 사항은 Amazon EMR 5.10.0 릴리스에 관련됩니다.

Upgrades

이 릴리스에서는 다음 버전을 포함하도록 다음 애플리케이션과 구성 요소를 업그레이드했습니다.

  • Hive 2.3.2

  • Spark 2.2.1

  • Java용 SDK 1.11.238

새로운 기능

알려진 문제

  • MXNet에는 OpenCV 라이브러리가 포함되지 않습니다.

  • Hive 2.3.2에서는 기본적으로 hive.compute.query.using.stats=true를 설정합니다. 따라서 쿼리에서는 데이터를 직접 가져오지 않고 기존 통계에서 데이터를 가져오므로 혼동될 수 있습니다. 예를 들어, hive.compute.query.using.stats=true인 테이블이 있을 때 새 파일을 LOCATION 테이블에 업로드하고 테이블에서 SELECT COUNT(*) 쿼리를 실행하면 추가된 행이 선택되지 않고 통계에 있는 수치가 반환됩니다.

    차선책으로 ANALYZE TABLE 명령을 사용하여 새 통계를 수집하거나 hive.compute.query.using.stats=false를 설정합니다. 자세한 내용은 Apache Hive 설명서의 Statistics in Hive를 참조하십시오.

릴리스 5.10.0

다음 릴리스 정보에는 Amazon EMR 버전 5.10.0 릴리스에 대한 정보가 포함됩니다. 변경 사항은 5.9.0 릴리스에 관련됩니다.

Upgrades

이 릴리스에서는 다음 버전을 포함하도록 다음 애플리케이션과 구성 요소를 업그레이드했습니다.

  • AWS SDK for Java 1.11.221

  • Hive 2.3.1

  • Presto 0.187

새로운 기능

변경 사항, 향상된 기능 및 해결된 문제

  • Presto

  • Spark

  • 하둡-13270을 백포트했습니다.

  • Numpy, Scipy 및 Matplotlib 라이브러리는 기본 Amazon EMR AMI에서 제거되었습니다. 애플리케이션에서 이러한 라이브러리가 필요한 경우, 애플리케이션 리포지토리에서 라이브러리를 사용할 수 있기 때문에 부트스트랩 작업 시 yum install을 사용하여 모든 노드에 라이브러리를 설치할 수 있습니다.

  • Amazon EMR 기본 AMI는 더 이상 애플리케이션 RPM 패키지를 포함하고 있지 않기 때문에 RPM 패키지가 더 이상 클러스터 노드에 존재하지 않습니다. 사용자 지정 AMIs 및 Amazon EMR 기본 AMI가 이제 Amazon S3에서 RPM 패키지 리포지토리를 참조합니다.

  • 의 초당 요금 도입으로 인해 기본 Amazon EC2축소 동작은 이제 인스턴스 종료가 아니라 작업 완료 시 종료입니다. 자세한 내용은 클러스터 축소 구성을 참조하십시오.

알려진 문제

  • MXNet에는 OpenCV 라이브러리가 포함되지 않습니다.

  • Hive 2.3.1에서는 기본적으로 hive.compute.query.using.stats=true를 설정합니다. 따라서 쿼리에서는 데이터를 직접 가져오지 않고 기존 통계에서 데이터를 가져오므로 혼동될 수 있습니다. 예를 들어, hive.compute.query.using.stats=true인 테이블이 있을 때 새 파일을 LOCATION 테이블에 업로드하고 테이블에서 SELECT COUNT(*) 쿼리를 실행하면 추가된 행이 선택되지 않고 통계에 있는 수치가 반환됩니다.

    차선책으로 ANALYZE TABLE 명령을 사용하여 새 통계를 수집하거나 hive.compute.query.using.stats=false를 설정합니다. 자세한 내용은 Apache Hive 설명서의 Statistics in Hive를 참조하십시오.

릴리스 5.9.0

다음 릴리스 정보에는 Amazon EMR 버전 5.9.0 릴리스에 대한 정보가 포함됩니다. 변경 사항은 Amazon EMR 5.8.0 릴리스에 관련됩니다.

릴리스 날짜: 2017년 10월 5일

최신 기능 업데이트: 2017년 10월 12일

Upgrades

이 릴리스에서는 다음 버전을 포함하도록 다음 애플리케이션과 구성 요소를 업그레이드했습니다.

  • AWS SDK for Java 버전 1.11.183

  • Flink 1.3.2

  • Hue 4.0.1

  • Pig 0.17.0

  • Presto 0.184

새로운 기능

  • Livy 지원이 추가되었습니다(버전 0.4.0-incubating). 자세한 내용은 Apache Livy 항목을 참조하십시오.

  • Spark용 Hue Notebook에 대한 지원이 추가되었습니다.

  • i3 시리즈 Amazon EC2 인스턴스에 대한 지원이 추가되었습니다(2017년 10월 12일).

변경 사항, 향상된 기능 및 해결된 문제

  • Spark

    • Spark가 수동 크기 조절 또는 자동 조정 정책 요청으로 인한 노드 종료를 보다 원활하게 처리할 수 있도록 도움을 주는 새로운 기능 세트를 추가했습니다. 자세한 내용은 노드 폐기 동작 구성 항목을 참조하십시오.

    • SSL은 블록 전송 서비스의 전송 중 암호화 시 3DES를 대신해 사용되며, AES-NI와 함께 Amazon EC2 인스턴스 유형을 사용할 때 성능을 개선합니다.

    • SPARK-21494를 백포트했습니다.

  • Zeppelin

  • HBase

  • Hue

    • Hue에서 Hive 쿼리 편집기를 위한 AWS Glue Data Catalog 지원을 추가했습니다.

    • 기본적으로 Hue의 수퍼유저는 Amazon EMR IAM 역할에서 액세스할 수 있는 모든 파일에 액세스 할 수 있습니다. 새로 생성된 사용자들은 Amazon S3 파일 브라우저를 액세스할 수 있는 권한이 자동으로 부여되지 않기 때문에 자신이 속한 그룹에 대해 활성화된 filebrowser.s3_access 권한이 있어야 합니다.

  • AWS Glue Data Catalog을 사용하여 생성된 기본 JSON 데이터를 액세스 할 수 없는 원인이 된 문제가 해결되었습니다.

알려진 문제

  • 모든 애플리케이션을 설치하고 기본 Amazon EBS 루트 볼륨 크기를 변경하지 않은 상태에서 클러스터가 시작되지 않습니다. 차선책으로 AWS CLI에서 aws emr create-cluster 명령을 사용하고 더 큰 --ebs-root-volume-size 파라미터를 지정합니다.

  • Hive 2.3.0에서는 기본적으로 hive.compute.query.using.stats=true를 설정합니다. 따라서 쿼리에서는 데이터를 직접 가져오지 않고 기존 통계에서 데이터를 가져오므로 혼동될 수 있습니다. 예를 들어, hive.compute.query.using.stats=true인 테이블이 있을 때 새 파일을 LOCATION 테이블에 업로드하고 테이블에서 SELECT COUNT(*) 쿼리를 실행하면 추가된 행이 선택되지 않고 통계에 있는 수치가 반환됩니다.

    차선책으로 ANALYZE TABLE 명령을 사용하여 새 통계를 수집하거나 hive.compute.query.using.stats=false를 설정합니다. 자세한 내용은 Apache Hive 설명서의 Statistics in Hive를 참조하십시오.

릴리스 5.8.2

다음 릴리스 정보에는 Amazon EMR 릴리스 버전 5.8.2에 대한 정보가 포함됩니다. 변경 사항은 5.8.1에 관련됩니다.

최초 릴리스 날짜: 2018년 3월 29일

변경 사항, 향상된 기능 및 해결된 문제

  • 잠재적인 취약점을 해결하기 위해 Amazon EMR용 기본 Amazon Linux AMI의 Amazon Linux 커널을 업데이트했습니다.

릴리스 5.8.1

다음 릴리스 정보에는 Amazon EMR 버전 5.8.1 릴리스에 대한 정보가 포함됩니다. 변경 사항은 Amazon EMR 5.8.0 릴리스에 관련됩니다.

최초 릴리스 날짜: 2018년 1월 22일

변경 사항, 향상된 기능 및 해결된 문제

  • 추론적 실행과 연결된 취약성을 보완하기 위해 Amazon EMR에 대한 기본 Amazon Linux AMI의 Amazon Linux 커널을 업데이트했습니다(CVE-2017-5715, CVE-2017-5753 및 CVE-2017-5754). 자세한 내용은 https://aws.amazon.com/security/security-bulletins/AWS-2018-013/ 단원을 참조하십시오.

릴리스 5.8.0

다음 릴리스 정보에는 Amazon EMR 버전 5.8.0 릴리스에 대한 정보가 포함됩니다. 변경 사항은 Amazon EMR 5.7.0 릴리스에 관련됩니다.

최초 릴리스 날짜: 2017년 8월 10일

최신 기능 업데이트: 2017년 9월 25일

Upgrades

이 릴리스에서는 다음 버전을 포함하도록 다음 애플리케이션과 구성 요소를 업그레이드했습니다.

  • AWS SDK 1.11.160

  • Flink 1.3.1

  • Hive 2.3.0 자세한 내용은 Apache Hive 사이트의 릴리스 정보를 참조하십시오.

  • Spark 2.2.0 자세한 내용은 Apache Spark 사이트의 릴리스 정보를 참조하십시오.

새로운 기능

변경 사항, 향상된 기능 및 해결된 문제

알려진 문제

  • 모든 애플리케이션을 설치하고 기본 Amazon EBS 루트 볼륨 크기를 변경하지 않은 상태에서 클러스터가 시작되지 않습니다. 차선책으로 AWS CLI에서 aws emr create-cluster 명령을 사용하고 더 큰 --ebs-root-volume-size 파라미터를 지정합니다.

  • Hive 2.3.0에서는 기본적으로 hive.compute.query.using.stats=true를 설정합니다. 따라서 쿼리에서는 데이터를 직접 가져오지 않고 기존 통계에서 데이터를 가져오므로 혼동될 수 있습니다. 예를 들어, hive.compute.query.using.stats=true인 테이블이 있을 때 새 파일을 LOCATION 테이블에 업로드하고 테이블에서 SELECT COUNT(*) 쿼리를 실행하면 추가된 행이 선택되지 않고 통계에 있는 수치가 반환됩니다.

    차선책으로 ANALYZE TABLE 명령을 사용하여 새 통계를 수집하거나 hive.compute.query.using.stats=false를 설정합니다. 자세한 내용은 Apache Hive 설명서의 Statistics in Hive를 참조하십시오.

  • Spark — Spark를 사용할 때, apppusher 데몬과 관련된 파일 핸들러 유출 문제가 있습니다. 이는 몇 시간 또는 며칠 후에 장시간 실행되는 Spark 작업에 나타날 수 있습니다. 이 문제를 해결하려면 마스터 노드에 연결하고 sudo /etc/init.d/apppusher stop를 입력합니다. 그러면 apppusher 데몬이 중지되고 Amazon EMR가 자동으로 다시 시작됩니다.

  • 애플리케이션 이력

    • 작동 중단 Spark 실행기의 기록 데이터는 사용할 수 없습니다.

    • 진행 중인 암호화를 사용하기 위해 보안 구성을 사용하는 클러스터에서는 애플리케이션 이력을 사용할 수 없습니다.

릴리스 5.7.0

다음 릴리스 정보에는 Amazon EMR 5.7.0 릴리스에 대한 정보가 포함됩니다. 변경 사항은 Amazon EMR 5.6.0 릴리스에 관련됩니다.

릴리스 날짜: 2017년 7월 13일

Upgrades

  • Flink 1.3.0

  • Phoenix 4.11.0

  • Zeppelin 0.7.2

새로운 기능

  • 클러스터를 생성할 때 사용자 지정 Amazon Linux AMI를 지정하는 기능을 추가했습니다. 자세한 내용은 사용자 지정 AMI 사용을 참조하십시오.

변경 사항, 향상된 기능 및 해결된 문제

  • HBase

  • Presto - node.properties 구성 기능을 추가했습니다.

  • YARN - container-log4j.properties 구성 기능을 추가했습니다.

  • Sqoop - SQOOP-2880을 백포트하여 Sqoop 임시 디렉터리를 설정할 수 있는 인수를 도입했습니다.

릴리스 5.6.0

다음 릴리스 정보에는 Amazon EMR 5.6.0 릴리스에 대한 정보가 포함됩니다. 변경 사항은 Amazon EMR 5.5.0 릴리스에 관련됩니다.

릴리스 날짜: 2017년 6월 5일

Upgrades

  • Flink 1.2.1

  • HBase 1.3.1

  • Mahout 0.13.0. Amazon EMR 버전 5.0 이상에서 Spark 2.x을 지원하는 첫 번째 버전의 Mahout입니다.

  • Spark 2.1.1

변경 사항, 향상된 기능 및 해결된 문제

  • Presto

    • 보안 구성에서 전송 데이터 암호화를 사용하여 Presto 노드 간 SSL/TLS 보안 통신을 활성화할 수 있는 기능이 추가되었습니다. 자세한 내용은 전송 중인 데이터 암호화를 참조하십시오.

    • Presto 7661의 백포트와 함께 VERBOSE 옵션이 EXPLAIN ANALYZE 문에 추가되면서 쿼리 계획에 대해 더욱 자세한 저레벨 통계를 보고할 수 있게 되었습니다.

릴리스 5.5.3

다음 출시 정보에는 Amazon EMR 릴리스 버전 5.5.3에 대한 정보가 포함됩니다. 변경 사항은 5.5.2에 관련됩니다.

최초 릴리스 날짜: 2018년 8월 29일

변경 사항, 향상된 기능 및 해결된 문제

  • 이 릴리스는 잠재적인 보안 취약점을 해결합니다.

릴리스 5.5.2

다음 릴리스 정보에는 Amazon EMR 릴리스 버전 5.5.2에 대한 정보가 포함됩니다. 변경 사항은 5.5.1에 관련됩니다.

최초 릴리스 날짜: 2018년 3월 29일

변경 사항, 향상된 기능 및 해결된 문제

  • 잠재적인 취약점을 해결하기 위해 Amazon EMR용 기본 Amazon Linux AMI의 Amazon Linux 커널을 업데이트했습니다.

릴리스 5.5.1

다음 릴리스 정보에는 Amazon EMR 5.5.1 릴리스에 대한 정보가 포함됩니다. 변경 사항은 Amazon EMR 5.5.0 릴리스에 관련됩니다.

최초 릴리스 날짜: 2018년 1월 22일

변경 사항, 향상된 기능 및 해결된 문제

  • 추론적 실행과 연결된 취약성을 보완하기 위해 Amazon EMR에 대한 기본 Amazon Linux AMI의 Amazon Linux 커널을 업데이트했습니다(CVE-2017-5715, CVE-2017-5753 및 CVE-2017-5754). 자세한 내용은 https://aws.amazon.com/security/security-bulletins/AWS-2018-013/ 단원을 참조하십시오.

릴리스 5.5.0

다음 릴리스 정보에는 Amazon EMR 5.5.0 릴리스에 대한 정보가 포함됩니다. 변경 사항은 Amazon EMR 5.4.0 릴리스에 관련됩니다.

릴리스 날짜: 2017년 4월 26일

Upgrades

  • Hue 3.12

  • Presto 0.170

  • Zeppelin 0.7.1

  • ZooKeeper 3.4.10

변경 사항, 향상된 기능 및 해결된 문제

  • Spark

  • Flink

    • Flink는 이제 Scala 2.11로 빌드됩니다. 따라서 Scala API 및 라이브러리를 사용하는 경우에는 프로젝트에 Scala 2.11을 사용하는 것이 좋습니다.

    • HADOOP_CONF_DIRYARN_CONF_DIR 기본값이 올바로 설정되지 않아서 start-scala-shell.sh 작업이 중단되던 문제가 해결되었습니다. 또한 env.hadoop.conf.dir 또는 env.yarn.conf.dir 구성 분류에서 /etc/flink/conf/flink-conf.yamlflink-conf을 사용하여 이 값들을 설정할 수 있는 기능도 추가되었습니다.

    • 새로운 EMR 전용 명령인 flink-scala-shellstart-scala-shell.sh의 래퍼로 도입했습니다. 대신 이 명령을 사용하는 것이 좋습니다.start-scala-shell 새 명령은 실행을 간소화합니다. 예를 들어 flink-scala-shell -n 2는 Flink Scala 셸을 작업 병렬 처리 2로 시작합니다.

    • 새로운 EMR 전용 명령인 flink-yarn-sessionyarn-session.sh 래퍼로 도입했습니다. 대신 이 명령을 사용하는 것이 좋습니다.yarn-session 새 명령은 실행을 간소화합니다. 예를 들어, flink-yarn-session -d -n 2는 연결이 끊어진 상태에서 작업 관리자 2개를 사용하여 장기 실행 Flink 세션을 시작합니다.

    • (FLINK-6125) 공통 httpclient가 더 이상 Flink 1.2에서 셰이딩되지 않는 문제가 해결되었습니다.

  • Presto

    • LDAP 인증에 대한 지원이 추가되었습니다. 단, Amazon EMR 기반 Presto에서 LDAP를 사용하려면 Presto 조정자의 HTTPS 액세스를 활성화해야 합니다(config.properties에서 http-server.https.enabled=true 설정). 구성에 대한 자세한 내용은 Presto 설명서에서 LDAP Authentication을 참조하십시오.

    • SHOW GRANTS에 대한 지원이 추가되었습니다.

  • Amazon EMR Linux AMI 기반

    • Amazon EMR 릴리스는 이제 Amazon Linux 2017.03을 기반으로 합니다. 자세한 내용은 Amazon Linux AMI 2017.03 릴리스 정보를 참조하십시오.

    • Linux 기반 Amazon EMR 이미지에서 Python 2.6이 제거되었습니다. 이제는 Python 2.7 및 3.4가 기본 설치됩니다. 필요하다면 Python 2.6을 수동으로 설치할 수도 있습니다.

릴리스 5.4.0

다음 릴리스 정보에는 Amazon EMR 5.4.0 릴리스에 대한 정보가 포함됩니다. 변경 사항은 Amazon EMR 5.3.0 릴리스에 관련됩니다.

릴리스 날짜: 2017년 3월 08일

Upgrades

이 릴리스에서는 다음 업그레이드를 사용할 수 있습니다.

  • Flink 1.2.0로 업그레이드

  • Hbase 1.3.0로 업그레이드

  • Phoenix 4.9.0로 업그레이드

    참고

    Amazon EMR의 이전 버전에서 Amazon EMR 버전 5.4.0 이상으로 업그레이드하고 보조 인덱싱을 사용할 경우 Apache Phoenix 설명서에 설명된 대로 로컬 인덱스를 업그레이드합니다. Amazon EMR을 사용하면 hbase-site 분류에서 필요한 구성이 제거되지만 인덱스를 다시 채워야 합니다. 인덱스의 온라인 및 오프라인 업그레이드가 지원됩니다. 온라인 업그레이드는 기본값이므로, 버전 4.8.0 이상인 Phoenix 클라이언트에서 초기화하는 동안 인덱스가 다시 채워집니다. 오프라인 업그레이드를 지정하려면 phoenix.client.localIndexUpgrade 분류에서 phoenix-site 구성을 false로 설정한 다음 SSH를 마스터 노드로 설정하여 psql [zookeeper] -1을 실행합니다.

  • Presto 0.166로 업그레이드

  • Zeppelin 0.7.0로 업그레이드

변경 사항 및 기능 향상

릴리스 레이블 emr-5.4.0인 Amazon EMR 릴리스에 대한 변경 사항은 다음과 같습니다.

릴리스 5.3.1

다음 출시 정보에는 Amazon EMR 5.3.1 릴리스에 대한 정보가 포함됩니다. 변경 사항은 Amazon EMR 5.3.0 릴리스에 관련됩니다.

릴리스 날짜: 2017년 2월 7일

백포트 Zeppelin 패치를 약간 변경하고 Amazon EMR의 기본 AMI를 업데이트합니다.

릴리스 5.3.0

다음 릴리스 정보에는 Amazon EMR 5.3.0 릴리스에 대한 정보가 포함됩니다. 변경 사항은 Amazon EMR 5.2.1 릴리스에 관련됩니다.

릴리스 날짜: 2017년 1월 26일

Upgrades

이 릴리스에서는 다음 업그레이드를 사용할 수 있습니다.

  • Hive 2.1.1으로 업그레이드

  • Hue 3.11.0로 업그레이드

  • Spark 2.1.0로 업그레이드

  • Oozie 4.3.0로 업그레이드

  • Flink 1.1.4로 업그레이드

변경 사항 및 기능 향상

릴리스 레이블 emr-5.3.0인 Amazon EMR 릴리스에 대한 변경 사항은 다음과 같습니다.

  • interpreters_shown_on_wheel 파일에 지정된 순서와 상관없이 hue.ini 설정을 사용하여 노트북 선택 휠에 첫 번째로 표시할 인터프리터를 구성할 수 있는 Hue 패치를 추가했습니다.

  • Hive의 hive-parquet-logging 파일에서 값을 구성하는 데 사용할 수 있는 parquet-logging.properties 구성 분류를 추가했습니다.

릴리스 5.2.2

다음 릴리스 정보에는 Amazon EMR 5.2.2 릴리스에 대한 정보가 포함됩니다. 변경 사항은 Amazon EMR 5.2.1 릴리스에 관련됩니다.

릴리스 날짜: 2017년 5월 2일

이전 릴리스에서 해결된 알려진 문제

  • SPARK-194459의 백포트와 함께 char/varchar 열이 포함된 ORC 테이블에서 데이터를 읽어오지 못하던 문제가 해결되었습니다.

릴리스 5.2.1

다음 릴리스 정보에는 Amazon EMR 5.2.1 릴리스에 대한 정보가 포함됩니다. 변경 사항은 Amazon EMR 5.2.0 릴리스에 관련됩니다.

릴리스 날짜: 2016년 12월 29일

Upgrades

이 릴리스에서는 다음 업그레이드를 사용할 수 있습니다.

변경 사항 및 기능 향상

릴리스 레이블 emr-5.2.1인 Amazon EMR 릴리스에 대한 변경 사항은 다음과 같습니다.

  • Amazon EMR 버전 4.8.3 이상(5.0.0, 5.0.3 및 5.2.0 제외)에서 Amazon EC2 m4.16xlarge 인스턴스 유형에 대한 지원을 추가했습니다.

  • Amazon EMR 릴리스는 이제 Amazon Linux 2016.09를 기반으로 합니다. 자세한 내용은 https://aws.amazon.com/amazon-linux-ami/2016.09-release-notes/ 항목을 참조하십시오.

  • 이제 Flink 및 YARN 구성 경로가 /etc/default/flink에서 기본적으로 설정되므로 FLINK_CONF_DIR 또는 HADOOP_CONF_DIR 드라이버 스크립트를 실행하여 Flink 작업을 시작할 때 환경 변수 flinkyarn-session.sh을 설정할 필요가 없습니다.

  • 클래스에 대한 지원이 추가되었습니다.FlinkKinesisConsumer

이전 릴리스에서 해결된 알려진 문제

  • 대규모 클러스터에서 동일한 파일의 복제 및 삭제 간 경합 때문에 ReplicationMonitor 스레드가 장시간 정체될 수 있는 하둡 문제를 수정했습니다.

  • 작업 상태가 성공적으로 업데이트되지 않았을 때 ControlledJob#toString이 null 포인터 예외(NPE)와 함께 실패하는 문제를 수정했습니다.

릴리스 5.2.0

다음 릴리스 정보에는 Amazon EMR 5.2.0 릴리스에 대한 정보가 포함됩니다. 변경 사항은 Amazon EMR 5.1.0 릴리스에 관련됩니다.

릴리스 날짜: 2016년 11월 21일

변경 사항 및 기능 향상

이 릴리스에서는 다음과 같은 변경 사항 및 기능 향상을 사용할 수 있습니다.

  • 에 대한 Amazon S3 스토리지 모드가 추가되었습니다.HBase

  • rootdir의 Amazon S3 위치를 지정할 수 있습니다.HBase 자세한 내용은 HBase의 Amazon S3 단원을 참조하십시오.

Upgrades

이 릴리스에서는 다음 업그레이드를 사용할 수 있습니다.

  • Spark 2.0.2로 업그레이드

이전 릴리스에서 해결된 알려진 문제

  • EBS 전용 인스턴스 유형에서 /mnt가 2TB로 제약되는 문제를 수정했습니다.

  • instance-controller 및 logpusher 로그가 매시간 회전하는 정상적인 og4j-configured .log 파일 대신 해당 .out 파일로 출력되는 문제를 수정했습니다. .out 파일은 회전하지 않으므로 결국 /emr 파티션이 파일로 가득 찰 수 있습니다. 이 문제는 하드웨어 가상 머신(HVM) 인스턴스 유형에만 영향을 미칩니다.

릴리스 5.1.0

다음 릴리스 정보에는 Amazon EMR 5.1.0 릴리스에 대한 정보가 포함됩니다. 변경 사항은 Amazon EMR 5.0.0 릴리스에 관련됩니다.

릴리스 날짜: 2016년 11월 3일

변경 사항 및 기능 향상

이 릴리스에서는 다음과 같은 변경 사항 및 기능 향상을 사용할 수 있습니다.

  • Flink 1.1.3에 대한 지원을 추가했습니다.

  • Presto는 Hue의 노트북 섹션에서 옵션으로 추가되었습니다.

Upgrades

이 릴리스에서는 다음 업그레이드를 사용할 수 있습니다.

  • 1.2.3로 업그레이드HBase

  • Zeppelin 0.6.2로 업그레이드

이전 릴리스에서 해결된 알려진 문제

  • ORC 파일이 이전 Amazon EMR 4.x 버전만큼 좋은 성능을 나타내지 않는 Amazon S3의 Tez 쿼리 문제를 수정했습니다.

릴리스 5.0.3

다음 릴리스 정보에는 Amazon EMR 5.0.3 릴리스에 대한 정보가 포함됩니다. 변경 사항은 Amazon EMR 5.0.0 릴리스에 관련됩니다.

릴리스 날짜: 2016년 10월 24일

Upgrades

이 릴리스에서는 다음 업그레이드를 사용할 수 있습니다.

  • Hadoop 2.7.3로 업그레이드

  • Presto 0.152.3로 업그레이드했습니다. 여기에는 Presto 웹 인터페이스에 대한 지원이 포함됩니다. 포트 8889를 사용하여 Presto 조정자의 Presto 웹 인터페이스에 액세스할 수 있습니다. Presto 웹 인터페이스에 대한 자세한 내용은 Presto 설명서의 웹 인터페이스를 참조하십시오.

  • Spark 2.0.1으로 업그레이드

  • Amazon EMR 릴리스는 이제 Amazon Linux 2016.09를 기반으로 합니다. 자세한 내용은 https://aws.amazon.com/amazon-linux-ami/2016.09-release-notes/ 항목을 참조하십시오.

릴리스 5.0.0

릴리스 날짜: 2016년 7월 27일

Upgrades

이 릴리스에서는 다음 업그레이드를 사용할 수 있습니다.

  • Hive 2.1으로 업그레이드

  • Presto 0.150로 업그레이드

  • Spark 2.0로 업그레이드

  • Hue 3.10.0로 업그레이드

  • Pig 0.16.0로 업그레이드

  • Tez 0.8.4로 업그레이드

  • Zeppelin 0.6.1으로 업그레이드

변경 사항 및 기능 향상

릴리스 레이블 emr-5.0.0 이상인 Amazon EMR 릴리스에 대한 변경 사항은 다음과 같습니다.

  • Amazon EMR은 최신 오픈 소스 버전의 Hive(버전 2.1)와 Pig(버전 0.16.0)를 지원합니다. 과거에 Amazon EMR에서 Hive나 Pig를 사용한 적이 있는 경우 일부 사용 사례에 영향을 미칠 수 있습니다. 자세한 내용은 HivePig를 참조하십시오.

  • Hive 및 Pig용 기본 실행 엔진은 이제 Tez입니다. 이 항목을 변경하려면 각각 hive-sitepig-properties 구성 분류에서 해당 값을 편집합니다.

  • 향상된 단계 디버깅 기능이 추가되었습니다. 서비스에서 원인을 결정할 수 있는 경우 이 기능을 사용하여 단계 실패의 근본 원인을 확인할 수 있습니다. 자세한 내용은 Amazon EMR 관리 안내서의 향상된 단계 디버깅을 참조하십시오.

  • 이전에 "-Sandbox"로 끝났던 애플리케이션은 더 이상 해당 접미사를 사용하지 않습니다. 이로 인해 예를 들어 스크립트를 사용하여 이 애플리케이션이 있는 클러스터를 시작하는 경우 자동화가 중단될 수 있습니다. 다음 표에서는 Amazon EMR 5.0.0 대비 Amazon EMR 4.7.2의 애플리케이션 이름을 보여 줍니다.

    애플리케이션 이름 변경
    Amazon EMR 4.7.2 Amazon EMR 5.0.0
    Oozie-Sandbox Oozie
    Presto-Sandbox Presto
    Sqoop-Sandbox Sqoop
    Zeppelin-Sandbox Zeppelin
    ZooKeeper -샌드박스 ZooKeeper
  • Spark는 이제 Scala 2.11용으로 컴파일됩니다.

  • 이제 기본 JVM은 Java 8입니다. 모든 애플리케이션은 Java 8 실행 시간을 사용하여 실행됩니다. 애플리케이션의 바이트 코드 대상에는 변경 사항이 없습니다. 대부분의 애플리케이션은 계속해서 Java 7을 대상으로 합니다.

  • Zeppelin에는 이제 인증 기능이 포함됩니다. 자세한 내용은 Zeppelin을 참조하십시오.

  • 암호화 옵션을 더 쉽게 생성하고 적용할 수 있도록 보안 구성에 대한 지원을 추가했습니다. 자세한 내용은 데이터 암호화를 참조하십시오.

릴리스 4.9.5

다음 출시 정보에는 Amazon EMR 릴리스 버전 4.9.5에 대한 정보가 포함됩니다. 변경 사항은 4.9.4에 관련됩니다.

최초 릴리스 날짜: 2018년 8월 29일

변경 사항, 향상된 기능 및 해결된 문제

  • HBase

    • 이 릴리스는 잠재적인 보안 취약점을 해결합니다.

릴리스 4.9.4

다음 릴리스 정보에는 Amazon EMR 릴리스 버전 4.9.4에 대한 정보가 포함됩니다. 변경 사항은 4.9.3에 관련됩니다.

최초 릴리스 날짜: 2018년 3월 29일

변경 사항, 향상된 기능 및 해결된 문제

  • 잠재적인 취약점을 해결하기 위해 Amazon EMR용 기본 Amazon Linux AMI의 Amazon Linux 커널을 업데이트했습니다.

릴리스 4.9.3

다음 릴리스 정보에는 Amazon EMR 4.9.3 릴리스에 대한 정보가 포함됩니다. 변경 사항은 Amazon EMR 4.9.2 릴리스에 관련됩니다.

최초 릴리스 날짜: 2018년 1월 22일

변경 사항, 향상된 기능 및 해결된 문제

  • 추론적 실행과 연결된 취약성을 보완하기 위해 Amazon EMR에 대한 기본 Amazon Linux AMI의 Amazon Linux 커널을 업데이트했습니다(CVE-2017-5715, CVE-2017-5753 및 CVE-2017-5754). 자세한 내용은 https://aws.amazon.com/security/security-bulletins/AWS-2018-013/ 단원을 참조하십시오.

릴리스 4.9.2

다음 릴리스 정보에는 Amazon EMR 4.9.2 릴리스에 대한 정보가 포함됩니다. 변경 사항은 Amazon EMR 4.9.1 릴리스에 관련됩니다.

릴리스 날짜: 2017년 7월 13일

이번 릴리스에서 일반적인 변경, 버그 수정 및 기능 개선이 이루어졌습니다.

릴리스 4.9.1

다음 릴리스 정보에는 Amazon EMR 4.9.1 릴리스에 대한 정보가 포함됩니다. 변경 사항은 Amazon EMR 4.8.4 릴리스에 관련됩니다.

릴리스 날짜: 2017년 10월 4일

이전 릴리스에서 해결된 알려진 문제

  • HIVE-9976HIVE-10106 백포트

  • YARN에서 다수의 노드(2,000개 이상) 및 컨테이너(5,000개 이상)가 메모리 부족 오류를 야기하던 문제가 수정되었습니다. 예를 들면 다음과 같습니다. "Exception in thread 'main' java.lang.OutOfMemoryError"

변경 사항 및 기능 향상

릴리스 레이블 emr-4.9.1인 Amazon EMR 릴리스에 대한 변경 사항은 다음과 같습니다.

  • Amazon EMR 릴리스는 이제 Amazon Linux 2017.03을 기반으로 합니다. 자세한 내용은 https://aws.amazon.com/amazon-linux-ami/2017.03-release-notes/ 항목을 참조하십시오.

  • Linux 기반 Amazon EMR 이미지에서 Python 2.6이 제거되었습니다. 필요하다면 Python 2.6을 수동으로 설치할 수도 있습니다.

릴리스 4.8.4

다음 릴리스 정보에는 Amazon EMR 4.8.4 릴리스에 대한 정보가 포함됩니다. 변경 사항은 Amazon EMR 4.8.3 릴리스에 관련됩니다.

릴리스 날짜: 2017년 2월 7일

이번 릴리스에서 일반적인 변경, 버그 수정 및 기능 개선이 이루어졌습니다.

릴리스 4.8.3

다음 릴리스 정보에는 Amazon EMR 4.8.3 릴리스에 대한 정보가 포함됩니다. 변경 사항은 Amazon EMR 4.8.2 릴리스에 관련됩니다.

릴리스 날짜: 2016년 12월 29일

Upgrades

이 릴리스에서는 다음 업그레이드를 사용할 수 있습니다.

  • Presto 0.157.1로 업그레이드되었습니다. 자세한 내용은 Presto 설명서의 Presto 릴리스 정보를 참조하십시오.

  • Spark 1.6.3으로 업그레이드되었습니다. 자세한 내용은 Apache Spark 설명서의 Spark 릴리스 정보를 참조하십시오.

  • 3.4.9로 업그레이드되었습니다.ZooKeeper 자세한 내용은 Apache 설명서의 ZooKeeper 출시 정보를 참조하십시오.ZooKeeper

변경 사항 및 기능 향상

릴리스 레이블 emr-4.8.3인 Amazon EMR 릴리스에 대한 변경 사항은 다음과 같습니다.

  • Amazon EMR 버전 4.8.3 이상(5.0.0, 5.0.3 및 5.2.0 제외)에서 Amazon EC2 m4.16xlarge 인스턴스 유형에 대한 지원을 추가했습니다.

  • Amazon EMR 릴리스는 이제 Amazon Linux 2016.09를 기반으로 합니다. 자세한 내용은 https://aws.amazon.com/amazon-linux-ami/2016.09-release-notes/ 항목을 참조하십시오.

이전 릴리스에서 해결된 알려진 문제

  • 대규모 클러스터에서 동일한 파일의 복제 및 삭제 간 경합 때문에 ReplicationMonitor 스레드가 장시간 정체될 수 있는 하둡 문제를 수정했습니다.

  • 작업 상태가 성공적으로 업데이트되지 않았을 때 ControlledJob#toString이 null 포인터 예외(NPE)와 함께 실패하는 문제를 수정했습니다.

릴리스 4.8.2

다음 릴리스 정보에는 Amazon EMR 4.8.2 릴리스에 대한 정보가 포함됩니다. 변경 사항은 Amazon EMR 4.8.0 릴리스에 관련됩니다.

릴리스 날짜: 2016년 10월 24일

Upgrades

이 릴리스에서는 다음 업그레이드를 사용할 수 있습니다.

  • Hadoop 2.7.3로 업그레이드

  • Presto 0.152.3로 업그레이드했습니다. 여기에는 Presto 웹 인터페이스에 대한 지원이 포함됩니다. 포트 8889를 사용하여 Presto 조정자의 Presto 웹 인터페이스에 액세스할 수 있습니다. Presto 웹 인터페이스에 대한 자세한 내용은 Presto 설명서의 웹 인터페이스를 참조하십시오.

  • Amazon EMR 릴리스는 이제 Amazon Linux 2016.09를 기반으로 합니다. 자세한 내용은 https://aws.amazon.com/amazon-linux-ami/2016.09-release-notes/ 항목을 참조하십시오.

릴리스 4.8.0

릴리스 날짜: 2016년 9월 7일

Upgrades

이 릴리스에서는 다음 업그레이드를 사용할 수 있습니다.

  • 1.2.2로 업그레이드HBase

  • Presto-Sandbox 0.151으로 업그레이드

  • Tez 0.8.4로 업그레이드

  • Zeppelin-Sandbox 0.6.1으로 업그레이드

변경 사항 및 기능 향상

릴리스 레이블 emr-4.8.0인 Amazon EMR 릴리스에 대한 변경 사항은 다음과 같습니다.

  • 인스턴스가 종료되었기 때문에 더 이상 존재하지 않는 컨테이너를 ApplicationMaster가 정리하려고 시도하는 YARN 문제를 수정했습니다.

  • Oozie 예제에서 Hive2 작업에 대한 hive-server2 URL을 수정했습니다.

  • 추가 Presto 카탈로그에 대한 지원을 추가했습니다.

  • 백포트된 패치: HIVE-8948, HIVE-12679, HIVE-13405, PHOENIX-3116, HADOOP-12689

  • 암호화 옵션을 더 쉽게 생성하고 적용할 수 있도록 보안 구성에 대한 지원을 추가했습니다. 자세한 내용은 데이터 암호화를 참조하십시오.

릴리스 4.7.2

다음 릴리스 정보에는 Amazon EMR 4.7.2에 대한 정보가 포함됩니다.

릴리스 날짜: 2016년 7월 15일

Features

이 릴리스에서는 다음 기능을 사용할 수 있습니다.

  • Mahout 0.12.2로 업그레이드

  • Presto 0.148으로 업그레이드

  • Spark 1.6.2로 업그레이드

  • 이제 URI를 파라미터로 사용하여 EMRFS에서 사용할 AWSCredentialsProvider를 생성할 수 있습니다. 자세한 내용은 EMRFS용 AWSCredentialsProvider 생성을 참조하십시오.

  • 이제 EMRFS에서 사용자는 emrfs-site.xmlfs.s3.consistent.dynamodb.endpoint 속성을 사용하여 일관성 보기 메타데이터에 대한 사용자 지정 DynamoDB 엔드포인트를 구성할 수 있습니다.

  • /usr/bin이라고 하는 spark-example에 스크립트가 추가되면서 /usr/lib/spark/spark/bin/run-example을 래핑하여 직접 예제를 실행할 수 있습니다. 예를 들어 Spark 배포와 함께 제공되는 SparkPi 예제를 실행하려면 명령줄에서 spark-example SparkPi 100를 실행하거나 command-runner.jar를 API의 단계로 사용하면 됩니다.

이전 릴리스에서 해결된 알려진 문제

  • Oozie 와 함께 Spark도 설치된 경우 spark-assembly.jar이 올바른 위치에 있지 않아서 Spark 애플리케이션이 Oozie와 함께 시작되지 못하는 문제를 수정했습니다.

  • YARN 컨테이너에서 Spark Log4j 기반 로깅 문제를 수정했습니다.

릴리스 4.7.1

릴리스 날짜: 2016년 6월 10일

이전 릴리스에서 해결된 알려진 문제

  • VPC에서 프라이빗 서브넷을 사용하여 시작된 클러스터의 스타트업 시간을 연장하는 문제를 수정했습니다. 이 버그는 Amazon EMR 4.7.0 릴리스를 사용하여 시작된 클러스터에만 영향을 미칩니다.

  • Amazon EMR 4.7.0 릴리스를 사용하여 시작된 클러스터의 경우 Amazon EMR에서 파일 목록을 부적절하게 처리하는 문제를 수정했습니다.

릴리스 4.7.0

중요

Amazon EMR 4.7.0은 더 이상 사용되지 않습니다. 그 대신 Amazon EMR 4.7.1 이상을 사용하십시오.

릴리스 날짜: 2016년 6월 2일

Features

이 릴리스에서는 다음 기능을 사용할 수 있습니다.

  • Apache Phoenix 4.7.0 추가

  • Apache Tez 0.8.3 추가

  • 1.2.1로 업그레이드HBase

  • Mahout 0.12.0로 업그레이드

  • Presto 0.147으로 업그레이드

  • AWS SDK for Java를 1.10.75로 업그레이드

  • 사용자가 로컬 모드에서 Pig를 실행할 수 있도록 mapreduce.cluster.local.dirmapred-site.xml 속성에서 최종 플래그가 제거되었습니다.

클러스터에서 Amazon Redshift JDBC 드라이버 사용 가능

이제 Amazon Redshift JDBC 드라이버는 /usr/share/aws/redshift/jdbc에 있습니다. /usr/share/aws/redshift/jdbc/RedshiftJDBC41.jar는 JDBC 4.1 호환 Amazon Redshift 드라이버이고 /usr/share/aws/redshift/jdbc/RedshiftJDBC4.jar는 JDBC 4.0 호환 Amazon Redshift 드라이버입니다. 자세한 내용은 https://docs.aws.amazon.com/redshift/latest/mgmt/configure-jdbc-connection.htmlJDBC 연결 구성Amazon Redshift Cluster Management Guide을 참조하십시오.

Java 8

Presto를 제외하고 모든 애플리케이션에 사용되는 기본 JDK는 OpenJDK 1.7입니다. 그러나 OpenJDK 1.7 및 1.8이 모두 설치됩니다. 애플리케이션에 대해 JAVA_HOME을 설정하는 방법에 대한 자세한 내용은 Java 8을 사용하도록 애플리케이션 구성을 참조하십시오.

이전 릴리스에서 해결된 알려진 문제

  • emr-4.6.0에서 Amazon EMR에 사용되는 처리량에 최적화된 HDD(st1) EBS 볼륨의 성능에 상당한 영향을 미치는 커널 문제를 수정했습니다.

  • 하둡을 애플리케이션으로 선택하지 않고 HDFS 암호화 영역을 지정할 경우 클러스터가 실패하는 문제를 수정했습니다.

  • 기본 HDFS 쓰기 정책을 RoundRobin에서 AvailableSpaceVolumeChoosingPolicy로 변경했습니다. 일부 볼륨이 RoundRobin 구성에서 제대로 사용되지 않아 코어 노드 실패 및 HDFS 불안정이 발생했습니다.

  • 일관성 보기에 대한 기본 DynamoDB 메타데이터 테이블을 생성할 때 예외가 발생하는 EMRFS CLI 문제를 수정했습니다.

  • 멀티파트 이름 바꾸기 및 복사 작업 중에 발생할 수 있는 EMRFS의 교착 문제를 수정했습니다.

  • EMRFS에서 CopyPart 크기 기본값이 5MB가 되는 문제를 수정했습니다. 기본값은 이제 128MB로 올바르게 설정됩니다.

  • 서비스를 중단할 수 없는 Zeppelin upstart 구성 문제를 수정했습니다.

  • s3a://이 해당 클래스 경로에 올바르게 로드되지 않기 때문에 /usr/lib/hadoop/hadoop-aws.jar URI 스키마를 사용할 수 없는 Spark 및 Zeppelin 문제를 수정했습니다.

  • HUE-2484를 백포트했습니다.

  • 브라우저 샘플 관련 문제를 수정하기 위해 Hue 3.9.0(JIRA가 존재하지 않음)에서 커밋을 백포트했습니다.HBase

  • HIVE-9073를 백포트했습니다.

릴리스 4.6.0

릴리스 날짜: 2016년 4월 21일

Features

이 릴리스에서는 다음 기능을 사용할 수 있습니다.

처리량에 최적화된 HDD(st1) EBS 볼륨 유형에 영향을 미치는 문제

Linux 커널 버전 4.2 이상의 문제는 EMR에 사용되는 처리량에 최적화된 HDD(st1) EBS 볼륨의 성능에 상당한 영향을 미칩니다. 이 릴리스(emr-4.6.0)는 커널 버전 4.4.5를 사용하므로 영향을 받습니다. 따라서 st1 EBS 볼륨을 사용하려는 경우 emr-4.6.0를 사용하지 않는 것이 좋습니다. emr-4.5.0 이전의 Amazon EMR 릴리스를 st1과 함께 사용하면 영향을 받지 않을 수 있습니다. 또한 향후 릴리스에서 수정을 제공합니다.

Python 기본값

이제 Python 3.4가 기본적으로 설치되지만, 시스템 기본값은 여전히 Python 2.7입니다. 부트스트랩 작업을 사용하여 Python 3.4를 시스템 기본값으로 구성할 수 있습니다. 구성 API를 사용하여 /usr/bin/python3.4 분류에서 PYSPARK_PYTHON 내보내기를 spark-env로 설정하여 PySpark에서 사용하는 Python 버전에 영향을 줄 수 있습니다.

Java 8

Presto를 제외하고 모든 애플리케이션에 사용되는 기본 JDK는 OpenJDK 1.7입니다. 그러나 OpenJDK 1.7 및 1.8이 모두 설치됩니다. 애플리케이션에 대해 JAVA_HOME을 설정하는 방법에 대한 자세한 내용은 Java 8을 사용하도록 애플리케이션 구성을 참조하십시오.

이전 릴리스에서 해결된 알려진 문제

  • 생성된 암호로 인해 애플리케이션 프로비저닝이 가끔 임의로 실패하는 문제를 수정했습니다.

  • 이전에는 mysqld가 모든 노드에 설치되었습니다. 이제 이 항목은 마스터 인스턴스에만 설치되며 선택한 애플리케이션에 mysql-server가 구성 요소로 포함되는 경우에만 설치됩니다. 현재 다음 애플리케이션에는 mysql-server 구성 요소가 포함되어 있습니다. HCatalog , Hive, Hue, Presto-Sandbox 및 Sqoop-Sandbox

  • yarn.scheduler.maximum-allocation-vcores를 기본값 32에서 80으로 변경했습니다. 이 변경에 따라 emr-4.4.0에 도입된 한 가지 문제가 수정됩니다. 이 문제는 코어 인스턴스 유형이 32 이상의 YARN vcore 세트를 갖춘 몇 가지 대규모 인스턴스 유형 중 하나인 클러스터에서 maximizeResourceAllocation 옵션을 사용하는 동안 주로 Spark에 발생합니다. 다시 말해서 c4.8xlarge, cc2.8xlarge, hs1.8xlarge, i2.8xlarge, m2.4xlarge, r3.8xlarge, d2.8xlarge 또는 m4.10xlarge가 이 문제의 영향을 받습니다.

  • s3-dist-cp는 이제 모든 Amazon S3 추천에 EMRFS를 사용하며 더 이상 임시 HDFS 디렉터리로 준비하지 않습니다.

  • 클라이언트 측 암호화 멀티파트 업로드에 대한 예외 처리 문제를 수정했습니다.

  • 사용자가 Amazon S3 스토리지 클래스를 변경할 수 있는 옵션을 추가했습니다. 기본적으로 이 설정은 STANDARD입니다. 구성 분류 설정은 emrfs-site이고 가능한 값은 fs.s3.storageClass, STANDARDSTANDARD_IA입니다.REDUCED_REDUNDANCY 스토리지 클래스에 대한 자세한 내용은 스토리지 클래스Amazon Simple Storage Service 개발자 가이드를 참조하십시오.

릴리스 4.5.0

릴리스 날짜: 2016년 4월 4일

Features

이 릴리스에서는 다음 기능을 사용할 수 있습니다.

  • Spark 1.6.1으로 업그레이드

  • Hadoop 2.7.2로 업그레이드

  • Presto 0.140로 업그레이드

  • Amazon S3 서버 측 암호화에 대한 AWS KMS 지원을 추가했습니다.

이전 릴리스에서 해결된 알려진 문제

  • 노드를 재부팅한 후 MySQL 및 Apache 서버가 시작되지 않는 문제를 수정했습니다.

  • 비 분할 테이블이 Amazon S3에 저장되면 IMPORT가 올바르게 작동하지 않는 문제를 수정했습니다.

  • Hive 테이블에 쓸 때 준비 디렉터리를 /mnt/tmp 대신 /tmp로 지정해야 하는 Presto 문제를 수정했습니다.

릴리스 4.4.0

릴리스 날짜: 2016년 3월 14일

Features

이 릴리스에서는 다음 기능을 사용할 수 있습니다.

  • 1.0.0 추가HCatalog

  • Sqoop-Sandbox 1.4.6 추가

  • Presto 0.136로 업그레이드

  • Zeppelin 0.5.6로 업그레이드

  • Mahout 0.11.1으로 업그레이드

  • dynamicResourceAllocation을 기본적으로 활성화했습니다.

  • 릴리스에 대한 모든 구성 분류의 표를 추가했습니다. 자세한 내용은 애플리케이션 구성의 구성 분류 표를 참조하십시오.

이전 릴리스에서 해결된 알려진 문제

  • 설정이 YARN maximizeResourceAllocation 데몬에 충분한 메모리를 예약하지 못하는 문제를 수정했습니다.ApplicationMaster

  • 사용자 지정 DNS에 발생하는 문제를 수정했습니다. 제공된 사용자 지정 항목 앞에 resolve.conf의 항목이 있으면 사용자 지정 항목을 확인할 수 없습니다. 이 동작은 기본 VPC 이름 서버가 resolve.conf에 최상위 항목으로 삽입되는 VPC의 클러스터에서 영향을 받은 것입니다.

  • 기본 Python이 버전 2.7으로 이동하고 해당 버전에 대해 boto가 설치되지 않는 문제를 수정했습니다.

  • YARN 컨테이너와 Spark 애플리케이션이 고유의 Ganglia rrd(round robin database) 파일을 생성하여 인스턴스에 연결된 첫 번째 디스크가 가득 채워지는 문제를 수정했습니다. 이러한 수정으로 인해 YARN 컨테이너 수준 지표가 비활성화되었으며 Spark 애플리케이션 수준 지표가 비활성화되었습니다.

  • 로그 푸셔에서 비어 있는 모든 로그 폴더가 삭제되는 문제를 수정했습니다. 이 문제의 영향으로 로그 푸셔가 user에서 비어 있는 /var/log/hive 폴더를 제거하기 때문에 Hive CLI가 로그를 작성할 수 없었습니다.

  • Hive 가져오기에 영향을 미치는 문제를 수정했습니다. 이 문제는 파티셔닝에 영향을 미치며 결과적으로 가져오기 중 오류가 발생했습니다.

  • EMRFS 및 s3-dist-cp에서 마침표가 포함된 버킷 이름이 올바르게 처리되지 않는 문제를 수정했습니다.

  • 버전 관리를 사용하는 버킷에서 _$folder$ 마커 파일이 연속적으로 생성되지 않도록 EMRFS의 동작을 변경했습니다. 이 변경은 버전 관리를 사용하는 버킷의 성능을 향상하는 데 도움이 될 수 있습니다.

  • 클라이언트 측 암호화를 사용하는 경우를 제외하고 지침 파일을 사용하지 않도록 EMRFS의 동작을 변경했습니다. 클라이언트 측 암호화를 사용하는 동안 지침 파일을 삭제하려는 경우 emrfs-site.xml 속성인 fs.s3.cse.cryptoStorageMode.deleteInstructionFiles.enabled를 true로 설정할 수 있습니다.

  • 2일 동인 집계 대상에서 로그를 유지하도록 Changed YARN 로그 집계를 변경했습니다. 기본 대상은 클러스터의 HDFS 스토리지입니다. 이 기간을 변경하려는 경우 클러스터를 생성할 때 yarn.log-aggregation.retain-seconds 분류를 사용하여 yarn-site의 값을 변경합니다. 평소와 같이, 클러스터를 생성할 때 log-uri 파라미터를 사용하여 애플리케이션 로그를 Amazon S3에 저장할 수 있습니다.

적용된 패치

이 릴리스에는 다음과 같은 오픈 소스 프로젝트의 패치가 포함되었습니다.

릴리스 4.3.0

릴리스 날짜: 2016년 1월 19일

Features

이 릴리스에서는 다음 기능을 사용할 수 있습니다.

  • Hadoop 2.7.1으로 업그레이드

  • Spark 1.6.0로 업그레이드

  • Ganglia를 3.7.2로 업그레이드

  • Presto를 0.130로 업그레이드

Amazon EMR에서 spark.dynamicAllocation.enabled를 true로 설정할 경우 결과가 약간 변경되었습니다. 이 설정은 기본적으로 false입니다. 이 값을 true로 설정하면 이 설정은 maximizeResourceAllocation 설정을 통해 지정된 기본값에 영향을 미칩니다.

  • spark.dynamicAllocation.enabled가 true로 설정되면 spark.executor.instances에서 maximizeResourceAllocation가 설정되지 않습니다.

  • 이제 spark.driver.memory 설정은 spark.executors.memory가 설정되는 방식과 비슷한 방식으로 클러스터의 인스턴스 유형에 따라 구성됩니다. 하지만 Spark 드라이버 애플리케이션을 마스터 또는 코어 인스턴스 중 하나에서(예를 들면 각각 YARN 클라이언트 및 클러스터 모드에서) 실행할 수 있으므로 spark.driver.memory 설정이 이러한 두 인스턴스 그룹 중 더 작은 인스턴스 유형에 따라 설정됩니다.

  • 이제 spark.default.parallelism 설정은 YARN 컨테이너에 사용할 수 있는 CPU 코어 수의 두 배로 설정됩니다. 이전 릴리스에서 이 설정은 해당 값의 절반이었습니다.

  • Spark YARN 프로세스에서 예약된 메모리 오버헤드에 대한 계산이 더 정확하게 조정되어 Spark에 사용 가능한 총 메모리 양(즉, spark.executor.memory)이 약간 증가했습니다.

이전 릴리스에서 해결된 알려진 문제

  • 이제 YARN 로그 집계가 기본적으로 활성화됩니다.

  • YARN 로그 집계를 활성화하면 로그가 클러스터의 Amazon S3 로그 버킷에 푸시되지 않는 문제를 수정했습니다.

  • 이제 YARN 컨테이너 크기의 새로운 최소값은 모든 노드 유형에서 32입니다.

  • 대규모 클러스터의 마스터 노드에 과도한 디스크 I/O를 유발하는 Ganglia 문제를 수정했습니다.

  • 클러스터를 종료할 때 애플리케이션 로그가 Amazon S3에 푸시되지 않는 문제를 수정했습니다.

  • EMRFS CLI에서 특정 명령이 실패하는 문제를 수정했습니다.

  • 종속 항목이 기본 SparkContext에 로드되지 않는 Zeppelin 문제를 수정했습니다.

  • 크기 조정을 실행하여 인스턴스를 추가하려고 할 때 발생하는 문제를 수정했습니다.

  • Hive에서 CREATE TABLE AS SELECT를 실행하면 Amazon S3에 대한 과도한 목록 호출이 생성되는 문제를 수정했습니다.

  • Hue, Oozie 및 Ganglia를 설치하면 대규모 클러스터가 제대로 프로비저닝되지 않는 문제를 수정했습니다.

  • s3-dist-cp가 오류로 실패하더라도 0 종료 코드가 반환되는 문제를 수정했습니다.

적용된 패치

이 릴리스에는 다음과 같은 오픈 소스 프로젝트의 패치가 포함되었습니다.

릴리스 4.2.0

릴리스 날짜: 2015년 11월 18일

Features

이 릴리스에서는 다음 기능을 사용할 수 있습니다.

  • Ganglia 지원 추가

  • Spark 1.5.2로 업그레이드

  • Presto 0.125로 업그레이드

  • Oozie를 4.2.0로 업그레이드

  • Zeppelin을 0.5.5로 업그레이드

  • AWS SDK for Java를 1.10.27로 업그레이드

이전 릴리스에서 해결된 알려진 문제

  • 기본 메타데이터 테이블 이름이 사용되지 않는 EMRFS CLI 문제를 수정했습니다.

  • Amazon S3에서 ORC 지원 테이블을 사용할 때 발생하는 문제를 수정했습니다.

  • Spark 구성에서 Python 버전이 일치하지 않는 경우 발생하는 문제를 수정했습니다.

  • VPC에서 클러스터의 DNS 문제 때문에 YARN 노드 상태가 보고되지 않는 문제를 수정했습니다.

  • YARN에서 노드를 폐기하면 애플리케이션이 정지되거나 새 애플리케이션을 예약할 수 없게 되는 문제를 수정했습니다.

  • 클러스터가 TIMED_OUT_STARTING 상태로 종료될 때 발생하는 문제를 수정했습니다.

  • EMRFS Scala 종속성을 다른 빌드에 포함시킬 때 발생하는 문제를 수정했습니다. Scala 종속성이 제거되었습니다.