아마존 EMR의 새로운 소식 - Amazon EMR

기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.

아마존 EMR의 새로운 소식

모든 Amazon EMR 릴리스 버전에 대한 릴리스 노트는 아래에서 확인할 수 있습니다. 각 릴리스의 포괄적인 릴리스 정보는 아마존 EMR 5.x 릴리스 버전아마존 EMR 4.x 릴리스 버전 단원을 참조하십시오.

에서https://docs.aws.amazon.com/emr/latest/ReleaseGuide/amazon-emr-release-notes.rss Amazon EMR 릴리스 노트의 RSS 피드를 구독하면 새 Amazon EMR 릴리스 버전이 출시될 때 업데이트를 받을 수 있습니다.

릴리즈 5.35.0

Amazon EMR 릴리스 버전 5.35.0 릴리스 노트입니다.

다음 릴리스 노트에는 Amazon EMR 릴리스 버전 5.35.0에 대한 정보가 포함되어 있습니다. 변경 사항은 5.34.0을 기준으로 합니다.

Initial release date: 2022년 3월 30일

새로운 기능
  • Log4j 1.x 및 Log4j 2.x를 사용하는 Amazon EMR 릴리스 5.35 애플리케이션은 각각 Log4j 1.2.17 (또는 이상) 및 Log4j 2.17.1 (이상) 을 사용하도록 업그레이드되었으며, 이전 릴리스의 CVE 문제를 완화하기 위해 부트스트랩 작업을 사용할 필요가 없습니다. CVE-2021-44228 완화를 위한 접근법을 참조하세요.

변경, 개선 및 해결된 문제

플링크 변경
유형 변경 설명
업그레이드
  • Flink 1.14.2.

  • log4j가 2.17.1로 업그레이드되었습니다.

하둡 변경
유형 변경 설명
EMR 5.34.0부터 출시된 하둡 오픈소스 백포트
  • YARN-10438: 클라이언트 RM 서비스#getContainerReport () 에서 null 컨테이너 ID를 처리하십시오.

  • YARN-7266: 타임라인 서버 이벤트 핸들러 스레드 잠김

  • YARN-10438: RollingLevelDb 파일이 손상되었거나 누락된 경우 ATS 1.5가 시작되지 않음

  • HADOOP-13500: 구성 속성 객체의 이터레이션을 동기화하는 중

  • YARN-10651: NPE가 CapacityScheduler 켜진 상태에서 충돌이 발생했습니다 AbstractYarnScheduler. updateNodeResource()

  • HDFS-12221: 에서 커서 교체 XmlEditsVisitor

  • HDFS-16410: 안전하지 않은 Xml 파싱 OfflineEditsXmlLoader

하둡 변경 및 수정
  • KMS 및 HTTPFS에서 사용되는 톰캣이 8.5.75로 업그레이드되었습니다

  • FileSystemOptimizedCommitterV2에서는 커미터를 만들 때 정의된 CommitJob 출력 경로에 성공 마커가 작성되었습니다. CommitJob과 태스크 수준 출력 경로가 다를 수 있으므로 매니페스트 파일에 정의된 경로를 사용하도록 경로가 수정되었습니다. Hive 작업의 경우 동적 파티션이나 UNION ALL과 같은 작업을 수행할 때 성공 마커가 올바르게 작성됩니다.

하이브 체인지
유형 변경 설명
Hive는 이러한 JIRA 수정 사항을 포함하여 오픈 소스 릴리스 2.3.9로 업그레이드했습니다.
  • HiveConf.java의 HIVE-17155: findConfFile () 는 구성 경로에 몇 가지 문제가 있습니다.

  • HIVE-24797: Avro 스키마를 파싱할 때 기본값 유효성 검사 비활성화

  • HIVE-21563: Once를 비활성화하여 Table#getEmptyTable 성능을 registerAllFunctions 향상시키십시오.

  • HIVE-18147: java.net에서는 테스트가 실패할 수 있습니다. BindException: 이미 사용 중인 주소

  • HIVE-24608: 하이브 2.3.x용 HMS 클라이언트에서 get_table로 다시 전환하세요

  • HIVE-21200: 벡터화 - java.lang을 던지는 날짜 열 UnsupportedOperationException 쪽모이 세공을 위해

  • HIVE-19228: 커먼스-httpclient 3.x 사용 제거

EMR 5.34.0부터 출시된 하이브 오픈 소스 백포트
  • HIVE-19990: 조인 조건에 간격 리터럴을 사용하는 쿼리가 실패했습니다.

  • HIVE-25824: 브랜치-2.3을 log4j 2.17.0으로 업그레이드

  • TEZ-4062: 태스크가 완료되면 추측 시도 스케줄링을 중단해야 합니다.

  • TEZ-4108: NullPointerException 추측에 근거한 처형 경쟁 상황에서

  • TEZ-3918: tez.task.log.level 설정이 작동하지 않습니다

Hive 업그레이드 및 수정
  • Log4j 버전을 2.17.1로 업그레이드

  • ORC 1.3.

  • 페널티 스레드 인으로 인한 교착 상태 수정 ShuffleScheduler

새로운 기능
  • AM 로그에 Hive 쿼리를 인쇄하는 기능이 추가되었습니다. 이 옵션은 기본적으로 비활성화되어 있습니다. 플래그/회의: tez.am.emr.print.hive.query.in.log. 상태 (기본값): 거짓.

우지 체인지
유형 변경 설명
EMR 5.34.0부터 출시된 오픈 소스 백포트
  • OOZIE-3652: Oozie 런처는 NoSuchFileException 발생 시 디렉터리 목록을 다시 시도해야 합니다.

돼지 변화
유형 변경 설명
업그레이드
  • log4j가 1.2.17로 업그레이드되었습니다.

릴리즈 5.34.0

다음 릴리스 노트에는 Amazon EMR 릴리스 버전 5.34.0에 대한 정보가 포함되어 있습니다. 변경 사항은 5.33.1을 기준으로 합니다.

Initial release date: 2022년 1월 20일

Updated release date: 2022년 3월 21일

새로운 기능
  • [관리형 조정] Spark 셔플 데이터 관리형 조정 최적화 - Amazon EMR 버전 5.34.0 이상 및 EMR 버전 6.4.0 이상에서 관리형 확장은 이제 Spark 셔플 데이터 (Spark가 특정 작업을 수행하기 위해 파티션에 재분배하는 데이터) 를 인식합니다. 셔플 작업에 대한 자세한 내용은 Amazon EMR 관리 안내서 및 Spark 프로그래밍 안내서의 Amazon EMR에서 EMR 관리형 조정 사용을 참조하십시오.

  • [Hudi] Hudi 구성을 단순화하도록 개선되었습니다. 낙관적 동시성 제어는 기본적으로 비활성화되었습니다.

변경 사항, 향상된 기능 및 해결된 문제
  • 이번 릴리스에서는 클러스터를 성공적으로 확장/축소하지 못하거나 애플리케이션 장애가 발생하는 경우 Amazon EMR Scaling과 관련된 문제를 해결하기 위한 릴리스입니다.

  • 이전에는 멀티 마스터 클러스터에서 리소스 관리자를 수동으로 다시 시작하면 Zookeeper와 같은 Amazon EMR 온 클러스터 데몬이 Zookeeper znode 파일에서 이전에 폐기되었거나 손실된 모든 노드를 다시 로드했습니다. 이로 인해 특정 상황에서 기본 한도가 초과되었습니다. Amazon EMR은 이제 Zookeeper 파일에서 사용 중지되거나 손실된 노드 레코드를 1시간 이상 경과한 노드 레코드를 제거하며 내부 제한을 늘렸습니다.

  • Amazon EMR 온 클러스터 데몬이 YARN 노드 상태 및 HDFS 노드 상태 수집과 같은 상태 확인 작업을 실행할 때 활용도가 높은 대규모 클러스터에 대한 조정 요청이 실패하는 문제를 수정했습니다. 이는 클러스터 내 데몬이 노드의 상태 데이터를 내부 Amazon EMR 구성 요소에 전달할 수 없었기 때문에 발생했습니다.

  • IP 주소를 재사용할 때 노드 상태를 올바르게 추적하여 조정 작업 중에 안정성을 개선하도록 EMR 온 클러스터 데몬이 개선되었습니다.

  • SPARK-29683. Spark에서 사용 가능한 모든 노드가 거부 목록에 있는 것으로 가정했기 때문에 클러스터 축소 중에 작업 실패가 발생하는 문제가 해결되었습니다.

  • YARN-9011. 클러스터 확장 또는 축소를 시도할 때 YARN decommission에서 경합 상태로 인해 작업 실패가 발생하는 문제가 수정되었습니다.

  • Amazon EMR 온 클러스터 데몬과 YARN/HDFS 간에 노드 상태가 항상 일치하도록 하여 클러스터 조정 중 단계 또는 작업 실패와 관련된 문제를 수정했습니다.

  • Kerberos 인증으로 활성화된 Amazon EMR 클러스터의 축소 및 단계 제출과 같은 클러스터 작업이 실패하는 문제가 수정되었습니다. Amazon EMR 온 클러스터 데몬이 Kerberos 티켓을 갱신하지 않았기 때문입니다. Kerberos 티켓은 마스터 노드에서 실행되는 HDFS/YARN과 안전하게 통신하는 데 필요합니다.

  • 제플린이 버전 0.10.0으로 업그레이드되었습니다.

  • 리비 픽스 - 0.7.1로 업그레이드

  • Spark 성능 향상 - EMR 5.34.0에서 특정 Spark 구성 값을 재정의하면 이기종 실행기가 비활성화됩니다.

  • WebHDFS. Hadoopdfs.webhdfs.enabled. HTTPFS 서버는 를 사용하여 시작할 수sudo systemctl start hadoop-httpfs 있습니다.

알려진 문제
  • Livy 사용자 사칭과 함께 사용되는 Amazon EMR Notebooks 기능은 HTTPFS가 기본적으로 비활성화되어 있기 때문에 작동하지 않습니다. 이 경우 EMR 노트북은 Livy 가장이 활성화된 클러스터에 연결할 수 없습니다. 해결 방법은 를 사용하여 EMR 노트북을 클러스터에 연결하기 전에 HTTPFS 서버를 시작하는sudo systemctl start hadoop-httpfs 것입니다.

  • 아파치 하둡 HTTPFS 서버가 기본적으로 비활성화되어 있기 때문에 Amazon EMR 6.4.0에서는 Hue 쿼리가 작동하지 않습니다. Amazon EMR 6.4.0에서 Hue를 사용하려면 를 사용하여sudo systemctl start hadoop-httpfs Amazon EMR 마스터 노드에서 HTTPFS 서버를 수동으로 시작하거나 Amazon EMR 단계를 사용하십시오.

  • Livy 사용자 사칭과 함께 사용되는 Amazon EMR Notebooks 기능은 HTTPFS가 기본적으로 비활성화되어 있기 때문에 작동하지 않습니다. 이 경우 EMR 노트북은 Livy 가장이 활성화된 클러스터에 연결할 수 없습니다. 해결 방법은 를 사용하여 EMR 노트북을 클러스터에 연결하기 전에 HTTPFS 서버를 시작하는sudo systemctl start hadoop-httpfs 것입니다.

릴리즈 6.5.0

다음 릴리스 노트에는 Amazon EMR 릴리스 버전 6.5.0에 대한 정보가 포함되어 있습니다. 변경 사항은 6.4.0을 기준으로 합니다.

Initial release date: 2022년 1월 20일

Updated release date: 2022년 3월 21일

새로운 기능
  • [관리형 조정] Spark 셔플 데이터 관리형 조정 최적화 - Amazon EMR 버전 5.34.0 이상 및 EMR 버전 6.4.0 이상에서 관리형 확장은 이제 Spark 셔플 데이터 (Spark가 특정 작업을 수행하기 위해 파티션에 재분배하는 데이터) 를 인식합니다. 셔플 작업에 대한 자세한 내용은 Amazon EMR 관리 안내서 및 Spark 프로그래밍 안내서의 Amazon EMR에서 EMR 관리형 조정 사용을 참조하십시오.

  • Amazon EMR 5.32.0 및 6.5.0부터 아파치 스파크의 동적 실행기 크기 조정이 기본적으로 활성화됩니다. spark.yarn.heterogeneousExecutors.enabled.

  • 대규모 분석 데이터 세트를 위한 Apache Iceberg 오픈 테이블 형식을 지원합니다.

  • ranger-trino-plugin 2.0.1-아만-1에 대한 Support

  • 토리 0.5.0에 대한 Support

변경 사항, 향상된 기능 및 해결된 문제
  • Amazon EMR 6.5 릴리스 버전은 이제 아파치 아이스버그 0.12.0을 지원하며, 아파치 스파크용 Amazon EMR 런타임, 프레스토용 Amazon EMR 런타임, 아파치 하이브용 Amazon EMR 런타임을 통해 런타임을 개선했습니다.

  • Apache Iceberg는 Amazon S3 대규모 데이터 세트를 위한 오픈 테이블 형식이며 대형 테이블, 아토믹 커밋, 동시 쓰기 및 SQL 호환 테이블 진화에 대한 빠른 쿼리 성능을 제공합니다. EMR 6.5에서는 아파치 스파크 3.1.2를 아이스버그 테이블 형식으로 사용할 수 있습니다.

  • 아파치 휴디 0.9는 스파크 SQL DDL 및 DML 지원을 추가합니다. 이렇게 하면 SQL 문만 사용하여 Hudi 테이블을 만들고 업서트할 수 있습니다. 아파치 Hudi 0.9에는 쿼리 측 및 작성기 측 성능 개선도 포함되어 있습니다.

  • Apache Hive용 Amazon EMR 런타임은 스테이징 작업 중에 이름 바꾸기 작업을 제거하여 Amazon S3에서 Apache Hive 성능을 향상시키고 테이블 복구에 사용되는 메타스토어 검사 (MSCK) 명령의 성능을 개선합니다.

알려진 문제
  • Amazon EMR 릴리스 6.5.0, 6.6.0 또는 6.7.0이 아파치 스파크 셸을 통해 아파치 피닉스 테이블을 읽을 때, Amazon EMR이 잘못된 테이블을 사용하기 때문에 a가NoSuchMethodError 발생합니다Hbase.compat.version. Amazon EMR 릴리스 6.8.0은 이 문제를 해결합니다.

  • 고가용성 (HA) 의 Hbase 번들 클러스터는 기본 볼륨 크기 및 인스턴스 유형으로 프로비저닝하지 못합니다. 이 문제의 해결 방법은 루트 볼륨 크기를 늘리는 것입니다.

  • Apache Oozie에서 Spark 액션을 사용하려면 Oozieworkflow.xml 파일에 다음 구성을 추가해야 합니다. 그렇지 않으면 Oozie가 실행하는 Spark 실행기의 클래스 경로에서 Hadoop 및 EMRFS와 같은 몇 가지 중요한 라이브러리가 누락됩니다.

    <spark-opts>--conf spark.yarn.populateHadoopClasspath=true</spark-opts>

릴리즈 6.4.0

다음 릴리스 노트에는 Amazon EMR 릴리스 버전 6.4.0에 대한 정보가 포함되어 있습니다. 변경 사항은 6.3.0을 기준으로 합니다.

Initial release date: 2021년 9월 20일

Updated release date: 2022년 3월 21일

지원되는 애플리케이션
  • AWS SDK for Java버전 1.12.31

  • CloudWatch Java 2.2.0

  • DynamoDB 커넥터 버전 4.16.0

  • EMRFS 버전 2.47.0

  • Amazon EMR 3.2.0

  • Kinesis EMR 3.5.0

  • Amazon EMR 2.1.0

  • Amazon EMR 2.0

  • Flink 1.13.1

  • Ganglia 버전 3.7.2

  • AWSGlue Hive 3.3.0

  • Java 3.1-Aman-4

  • HBase 2.4.4-amn-0

  • HBase-operator-tools 1.1.0

  • H-Caralog 3.2-amn-5

  • Java 3.2-Aman-5

  • 휴디 버전 0.8.0-amz-0

  • Hue 4.9.0

  • 자바 JDK 버전 코레토-8.302.08.1 (빌드 1.8.0_302-b08)

  • JupyterHub 1.4.1

  • 리비 버전 0.7.1-인큐베이팅

  • MXNet 1.8.0

  • Oozie 5.2.1

  • 피닉스 5.1.2

  • 피그 버전 0.17.0

  • 프레스토 버전 0.254.1-amzn-0

  • 트리노 버전 3.59

  • Apache Ranger KMS (Multimaster) 2.0.0

  • 레인저 2.0.1-AMZ-0

  • 레인저-s3 1.2.0

  • SageMaker Spark SDK 1.4.1

  • 스칼라 버전 2.12.10 (OpenJDK 64비트 서버 VM, 자바 1.8.0_282)

  • Spark 3.1.2-amn-0

  • 스파크-래피즈 0.4.1

  • 스쿱 버전 1.4.7

  • TensorFlow 2.4.1

  • 테즈 버전 0.9.2

  • 제플린 버전 0.9.0

  • 사육사 버전 3.5.7

  • 커넥터 및 드라이버: DynamoDB 커넥터 4.16.0

새로운 기능
  • [관리형 조정] Spark 셔플 데이터 관리형 조정 최적화 - Amazon EMR 버전 5.34.0 이상 및 EMR 버전 6.4.0 이상에서 관리형 확장은 이제 Spark 셔플 데이터 (Spark가 특정 작업을 수행하기 위해 파티션에 재분배하는 데이터) 를 인식합니다. 셔플 작업에 대한 자세한 내용은 Amazon EMR 관리 안내서 및 Spark 프로그래밍 안내서의 Amazon EMR에서 EMR 관리형 조정 사용을 참조하십시오.

  • Apache Ranger를 지원하는 Amazon EMR 클러스터에서는INSERT INTOINSERT OVERWRITE, 및 를 사용하여 Apache Spark SQL을 사용하여 데이터를 Apache Hive 메타스토어 테이블에 삽입하거나 업데이트할 수ALTER TABLE 있습니다. Spark SQL과 함께 ALTER TABLE을 사용하는 경우 파티션 위치는 테이블 위치의 하위 디렉터리여야 합니다. Amazon EMR은 현재 파티션 위치가 테이블 위치와 다른 파티션에 데이터를 삽입하는 것을 지원하지 않습니다.

  • 프레스토SQL이 트리노로 이름이 변경되었습니다.

  • 하이브: LIMIT 절에 언급된 레코드 수를 가져오는 즉시 쿼리 실행을 중지하여 LIMIT 절을 사용하는 간단한 SELECT 쿼리 실행을 가속화합니다. 단순 SELECT 쿼리는 GROUP BY/ORDER by 절이 없는 쿼리나 리듀서 단계가 없는 쿼리입니다. 예: SELECT * from <TABLE> WHERE <Condition> LIMIT <Number>.

Hudi
  • Hudi는 이제 낙관적 동시성 제어 (OCC) 를 지원합니다. OCC (낙관적 동시성 제어) 는 UPSERT 및 INSERT와 같은 쓰기 작업과 함께 활용하여 여러 작성기에서 동일한 Hudi 테이블로 변경할 수 있습니다. 이는 파일 레벨 OCC이므로 변경 내용이 충돌하지 않는 경우 두 커밋 (또는 작성자) 이 동일한 테이블에 쓸 수 있습니다. Hudi.

  • Amazon EMR 클러스터에는 OCC용 잠금 공급자로 활용할 수 있는 Zookeeper가 설치되어 있습니다. 이 기능을 더 쉽게 사용할 수 있도록 Amazon EMR 클러스터에는 다음과 같은 속성이 사전 구성되어 있습니다.

    hoodie.write.lock.provider=org.apache.hudi.client.transaction.lock.ZookeeperBasedLockProvider hoodie.write.lock.zookeeper.url=<EMR Zookeeper URL> hoodie.write.lock.zookeeper.port=<EMR Zookeeper Port> hoodie.write.lock.zookeeper.base_path=/hudi

    OCC를 활성화하려면 Hudi 작업 옵션을 사용하거나 Amazon EMR 구성 API를 사용하여 클러스터 수준에서 다음 속성을 구성해야 합니다.

    hoodie.write.concurrency.mode=optimistic_concurrency_control hoodie.cleaner.policy.failed.writes=LAZY (Performs cleaning of failed writes lazily instead of inline with every write) hoodie.write.lock.zookeeper.lock_key=<Key to uniquely identify the Hudi table> (Table Name is a good option)
Hudi Hudi 메트릭스를 보고하기 위한 아마존 CloudWatch 통합
  • 아마존 EMR은 Hudi 지표를 아마존에 게시하는 것을 지원합니다 CloudWatch. 다음과 같은 필수 구성을 설정하여 활성화할 수 있습니다.

    hoodie.metrics.on=true hoodie.metrics.reporter.type=CLOUDWATCH
  • 변경할 수 있는 선택적 Hudi 구성은 다음과 같습니다.

    설정 설명

    후디, 메트릭스, 클라우드워치, 리포트, 피리오드, 세컨즈

    Amazon에 지표를 보고하는 빈도 (초 단위) CloudWatch

    기본값은 60초이며 Amazon에서 제공하는 기본 1분 해상도에 적합합니다. CloudWatch

    후드티.metrics.cloudwatch.metric.prefix

    각 지표 이름에 추가할 접두사

    기본값은 비어 있습니다 (접두사 없음).

    후디, 메트릭, 클라우드워치, 네임스페이스

    지표가 게시되는 Amazon CloudWatch 네임스페이스

    Hudi.

    후드티. 메트릭. 클라우드워치. maxDatumsPer의뢰

    Amazon에 한 번 요청할 때 포함할 수 있는 최대 데이텀 수 CloudWatch

    기본값은 20이며, 이는 아마존 CloudWatch 기본값과 동일합니다.

아마존 EMR Hudi 구성 지원 및 개선
  • 고객은 이제 EMR 구성 API 및 재구성 기능을 활용하여 클러스터 수준에서 Hudi 구성을 구성할 수 있습니다. Spark, Hive 등과 같은 다른 응용 프로그램의 라인에 따라 /etc/hudi/conf/hudi-defaults.conf를 통해 새로운 파일 기반 구성 지원이 도입되었습니다. EMR은 사용자 환경을 개선하기 위해 몇 가지 기본값을 구성합니다.

    — 클러스터 Hive 서버 URL로hoodie.datasource.hive_sync.jdbcurl 구성되며 더 이상 지정할 필요가 없습니다. 이는 이전에 Amazon EMR 마스터 IP를 지정해야 했던 Spark 클러스터 모드에서 작업을 실행할 때 특히 유용합니다.

    — HBase 관련 구성. Hudi와 함께 HBase 인덱스를 사용하는 데 유용합니다.

    — 동시성 제어에서 설명한 것처럼 Zookeeper 잠금 제공자별 구성을 사용하면 OCC (낙관적 동시성 제어) 를 더 쉽게 사용할 수 있습니다.

  • 통과해야 하는 구성 수를 줄이고 가능한 경우 자동으로 추론할 수 있도록 추가 변경 사항이 도입되었습니다.

    partitionBy 키워드를 사용하여 파티션 열을 지정할 수 있습니다.

    — Hive Sync를 활성화하면 더 이상 통과하지 않아도HIVE_TABLE_OPT_KEY, HIVE_PARTITION_FIELDS_OPT_KEY, HIVE_PARTITION_EXTRACTOR_CLASS_OPT_KEY 됩니다. 이러한 값은 Hudi 테이블 이름 및 파티션 필드에서 유추할 수 있습니다.

    — 반드시 통과해야 하는KEYGENERATOR_CLASS_OPT_KEY 것은 아니며 더 간단한 및 사례에서 유추할 수ComplexKeyGenerator 있습니다.SimpleKeyGenerator

Hudi
  • Hudi는 읽기 (MoR) 및 부트스트랩 테이블에서 Hive의 벡터화된 실행을 지원하지 않습니다. 예를 들어, 가 true로hive.vectorized.execution.enabled 설정되면 Hudi 실시간 테이블이count(*) 실패합니다. 이 문제를 해결하려면 로 설정하여 벡터화된 읽기를hive.vectorized.execution.enabled 비활성화할 수false 있습니다.

  • 멀티 라이터 지원은 Hudi 부트 스트랩 기능과 호환되지 않습니다.

  • 플링크 스트리머와 플링크 SQL은 이번 릴리스의 실험 기능입니다. .

변경, 개선 및 해결된 문제

이번 릴리스에서는 클러스터를 성공적으로 확장/축소하지 못하거나 애플리케이션 장애가 발생하는 경우 Amazon EMR Scaling과 관련된 문제를 해결하기 위한 릴리스입니다.

  • 이전에는 멀티 마스터 클러스터에서 리소스 관리자를 수동으로 다시 시작하면 Zookeeper와 같은 Amazon EMR 온 클러스터 데몬이 Zookeeper znode 파일에서 이전에 폐기되었거나 손실된 모든 노드를 다시 로드했습니다. 이로 인해 특정 상황에서 기본 한도가 초과되었습니다. Amazon EMR은 이제 Zookeeper 파일에서 사용 중지되거나 손실된 노드 레코드를 1시간 이상 경과한 노드 레코드를 제거하며 내부 제한을 늘렸습니다.

  • Amazon EMR 온 클러스터 데몬이 YARN 노드 상태 및 HDFS 노드 상태 수집과 같은 상태 확인 작업을 실행할 때 활용도가 높은 대규모 클러스터에 대한 조정 요청이 실패하는 문제를 수정했습니다. 이는 클러스터 내 데몬이 노드의 상태 데이터를 내부 Amazon EMR 구성 요소에 전달할 수 없었기 때문에 발생했습니다.

  • IP 주소를 재사용할 때 노드 상태를 올바르게 추적하여 조정 작업 중에 안정성을 개선하도록 EMR 온 클러스터 데몬이 개선되었습니다.

  • SPARK-29683. Spark에서 사용 가능한 모든 노드가 거부 목록에 있는 것으로 가정했기 때문에 클러스터 축소 중에 작업 실패가 발생하는 문제가 해결되었습니다.

  • YARN-9011. 클러스터 확장 또는 축소를 시도할 때 YARN decommission에서 경합 상태로 인해 작업 실패가 발생하는 문제가 수정되었습니다.

  • Amazon EMR 온 클러스터 데몬과 YARN/HDFS 간에 노드 상태가 항상 일치하도록 하여 클러스터 조정 중 단계 또는 작업 실패와 관련된 문제를 수정했습니다.

  • Kerberos 인증으로 활성화된 Amazon EMR 클러스터의 축소 및 단계 제출과 같은 클러스터 작업이 실패하는 문제가 수정되었습니다. Amazon EMR 온 클러스터 데몬이 Kerberos 티켓을 갱신하지 않았기 때문입니다. Kerberos 티켓은 마스터 노드에서 실행되는 HDFS/YARN과 안전하게 통신하는 데 필요합니다.

  • Apache YARN 타임라인 서버 버전 1 및 1.5 성능 문제를 해결하기 위한 클러스터 구성

    Apache YARN 타임라인 서버 버전 1과 1.5는 매우 활성화된 대규모 EMR 클러스터, 특히 EMR의 기본 설정인 의 경우 성능 문제를 일으킬 수 있습니다.yarn.resourcemanager.system-metrics-publisher.enabled=true 오픈 소스 YARN 타임라인 서버 v2는 YARN 타임라인 서버 확장성과 관련된 성능 문제를 해결합니다.

    이 문제에 대한 기타 해결 방법은 다음과 같습니다.

    • yarn. 리소스 관리자 구성 중. system-metrics-publisher.yarn-site.xml 에서 활성화=거짓입니다.

    • 클러스터를 생성할 때 아래 설명과 같이 이 문제를 해결할 수 있도록 설정합니다.

    다음 Amazon EMR 릴리스 버전에는 이 YARN 타임라인 서버 성능 문제에 대한 수정 사항이 포함되어 있습니다.

    EMR 5.30.2, 5.31.1, 5.32.1, 5.33.1, 5.34.x, 6.0.1, 6.1.1, 6.2.1, 6.3.1, 6.4.x

    위에서 지정한 Amazon EMR 릴리스 중true 하나에서 수정 사항을 활성화하려면 aws emr create-cluster명령 파라미터를 사용하여 전달되는 구성 JSON 파일에서 이러한 속성을 로 설정하십시오. --configurations file://./configurations.json. 또는 재구성 콘솔 UI를 사용하여 수정 사항을 활성화할 수도 있습니다.

    구성.json 파일 콘텐츠의 예는 다음과 같습니다.

    [ { "Classification": "yarn-site", "Properties": { "yarn.resourcemanager.system-metrics-publisher.timeline-server-v1.enable-batch": "true", "yarn.resourcemanager.system-metrics-publisher.enabled": "true" }, "Configurations": [] } ]
  • WebHDFS. Hadoopdfs.webhdfs.enabled. HTTPFS 서버는 를 사용하여 시작할 수sudo systemctl start hadoop-httpfs 있습니다.

  • HTTPS는 이제 아마존 리눅스 리포지토리에 기본적으로 활성화됩니다. Amazon S3 VPCE 정책을 사용하여 특정 버킷에 대한 액세스를 제한하는 경우 새 Amazon Linux 버킷 ARN을 정책에arn:aws:s3:::amazonlinux-2-repos-$region/* 추가해야 합니다 (엔드포인트가 있는 지역으로 대체$region). AWS. 발표: Amazon Linux 2는 이제 패키지 리포지토리에 연결하는 동안 HTTPS를 사용할 수 있는 기능을 지원합니다.

  • 하이브: 마지막 작업에 HDFS에서 스크래치 디렉터리를 사용할 수 있게 함으로써 쿼리 쓰기 성능이 향상됩니다. 최종 작업을 위한 임시 데이터는 Amazon S3 대신 HDFS에 기록되며, 데이터가 Amazon S3 디바이스 사이가 아니라 HDFS에서 최종 테이블 위치 (Amazon S3) 로 이동되므로 성능이 향상됩니다.

  • 하이브: Glue 메타스토어 파티션 프루닝을 통해 쿼리 컴파일 시간을 최대 2.5배 개선합니다.

  • 기본적으로 Hive에서 내장 UDF를 Hive 메타스토어 서버로 전달하면 Glue는 제한된 표현식 연산자만 지원하기 때문에 내장 UDF의 하위 집합만 Glue 메타스토어에 전달됩니다. .hive.glue.partition.pruning.client=true 를 설정하면hive.glue.partition.pruning.server=true 모든 파티션 프루닝이 서버 측에서 발생합니다.

알려진 문제
  • 아파치 하둡 HTTPFS 서버가 기본적으로 비활성화되어 있기 때문에 Amazon EMR 6.4.0에서는 Hue 쿼리가 작동하지 않습니다. Amazon EMR 6.4.0에서 Hue를 사용하려면 를 사용하여sudo systemctl start hadoop-httpfs Amazon EMR 마스터 노드에서 HTTPFS 서버를 수동으로 시작하거나 Amazon EMR 단계를 사용하십시오.

  • Livy 사용자 사칭과 함께 사용되는 Amazon EMR Notebooks 기능은 HTTPFS가 기본적으로 비활성화되어 있기 때문에 작동하지 않습니다. 이 경우 EMR 노트북은 Livy 가장이 활성화된 클러스터에 연결할 수 없습니다. 해결 방법은 를 사용하여 EMR 노트북을 클러스터에 연결하기 전에 HTTPFS 서버를 시작하는sudo systemctl start hadoop-httpfs 것입니다.

  • Amazon EMR 버전 6.4.0에서 피닉스는 피닉스 커넥터 구성 요소를 지원하지 않습니다.

  • Apache Oozie에서 Spark 액션을 사용하려면 Oozieworkflow.xml 파일에 다음 구성을 추가해야 합니다. 그렇지 않으면 Oozie가 실행하는 Spark 실행기의 클래스 경로에서 Hadoop 및 EMRFS와 같은 몇 가지 중요한 라이브러리가 누락됩니다.

    <spark-opts>--conf spark.yarn.populateHadoopClasspath=true</spark-opts>

릴리즈 5.32.0

다음 릴리스 노트에는 Amazon EMR 릴리스 버전 5.32.0에 대한 정보가 포함되어 있습니다. 변경 사항은 5.31.0을 기준으로 합니다.

Initial release date: 2021 1 8

업그레이드
  • 아마존 Glue 커넥터를 버전 1.14.0으로 업그레이드했습니다.

  • Amazon SageMaker Spark SDK 1.4.1

  • 버전AWS SDK for Java 1.11.890으로 업그레이드되었습니다

  • 업그레이드된 EMR DynamoDB 커넥터 버전 4.16.0

  • EMRFS 2.40

  • EMR 1.18.0

  • MetricsAndEventsApiGateway EMR 1.5.0

  • EMR 1.8.0

  • EMR S3 디스트 CP를 버전 2.17.0으로 업그레이드했습니다.

  • EMR 1.7.0

  • Flink를 1.1.2.

  • Hadoop 2.10.0

  • Hive를 버전 2.3.7-aman-3으로 업그레이드했습니다

  • Hue 4.0

  • Mxnet 1.7.0

  • OpenCV 4.0

  • 프레스토를 0.240.1-amzn-0 버전으로 업그레이드했습니다

  • Spark를 2.4.7

  • 2.3.1 TensorFlow

변경, 개선 및 해결된 문제
  • 이번 릴리스에서는 클러스터를 성공적으로 확장/축소하지 못하거나 애플리케이션 장애가 발생하는 경우 Amazon EMR Scaling과 관련된 문제를 해결하기 위한 릴리스입니다.

  • Amazon EMR 온 클러스터 데몬이 YARN 노드 상태 및 HDFS 노드 상태 수집과 같은 상태 확인 작업을 실행할 때 활용도가 높은 대규모 클러스터에 대한 조정 요청이 실패하는 문제를 수정했습니다. 이는 클러스터 내 데몬이 노드의 상태 데이터를 내부 Amazon EMR 구성 요소에 전달할 수 없었기 때문에 발생했습니다.

  • IP 주소를 재사용할 때 노드 상태를 올바르게 추적하여 조정 작업 중에 안정성을 개선하도록 EMR 온 클러스터 데몬이 개선되었습니다.

  • SPARK-29683. Spark에서 사용 가능한 모든 노드가 거부 목록에 있는 것으로 가정했기 때문에 클러스터 축소 중에 작업 실패가 발생하는 문제가 해결되었습니다.

  • YARN-9011. 클러스터 확장 또는 축소를 시도할 때 YARN decommission에서 경합 상태로 인해 작업 실패가 발생하는 문제가 수정되었습니다.

  • Amazon EMR 온 클러스터 데몬과 YARN/HDFS 간에 노드 상태가 항상 일치하도록 하여 클러스터 조정 중 단계 또는 작업 실패와 관련된 문제를 수정했습니다.

  • Kerberos 인증으로 활성화된 Amazon EMR 클러스터의 축소 및 단계 제출과 같은 클러스터 작업이 실패하는 문제가 수정되었습니다. Amazon EMR 온 클러스터 데몬이 Kerberos 티켓을 갱신하지 않았기 때문입니다. Kerberos 티켓은 마스터 노드에서 실행되는 HDFS/YARN과 안전하게 통신하는 데 필요합니다.

  • 최신 Amazon EMR 릴리스에서는 Amazon EMR의 이전 AL2에 대한 “최대 열린 파일 수” 제한이 낮아지는 문제가 해결되었습니다. Amazon EMR 릴리스 5.30.1, 5.30.2, 5.31.1, 5.32.1, 6.0.1, 6.1.1, 6.2.1, 5.33.0, 6.3.0 이상에는 이제 더 높은 “열린 파일 수” 설정이 포함된 영구 수정 사항이 포함되어 있습니다.

  • 업그레이드된 구성 요소 버전.

  • 구성 요소 버전 목록은 이 안내서의 Amazon EMR 릴리스 정보를 참조하십시오.

새로운 기능
  • Amazon EMR 5.32.0 및 6.5.0부터 아파치 스파크의 동적 실행기 크기 조정이 기본적으로 활성화됩니다. spark.yarn.heterogeneousExecutors.enabled.

  • 인스턴스 메타데이터 서비스 (IMDS) V2 지원 상태: 아마존 EMR 5.23.1, 5.27.1 및 5.32 이상의 구성 요소는 모든 IMDS 호출에 IMDSv2를 사용합니다. 애플리케이션 코드에 있는 IMDS 호출의 경우, IMDSv1과 IMDsv2를 모두 사용하거나, 추가 보안을 위해 IMDSv2만 사용하도록 IMDS를 구성할 수 있습니다. 다른 5.x EMR 릴리스의 경우 IMDSv1을 비활성화하면 클러스터 시작 오류가 발생합니다.

  • Amazon EMR 5.32.0부터는 Apache Ranger와 기본적으로 통합되는 클러스터를 시작할 수 있습니다. Apache Ranger는 Hadoop 플랫폼 전반에서 포괄적인 데이터 보안을 지원, 모니터링 및 관리하는 오픈 소스 프레임워크입니다. Apache Ranger. 기본 통합 기능을 통해 자체 Apache Ranger를 가져와 Amazon EMR에서 세분화된 데이터 액세스 제어를 적용할 수 있습니다. Amazon EMR 릴리스 가이드의 Apache Ranger와 Amazon EMR의 통합을 참조하십시오.

  • Amazon EMR 5.32.EKS Amazon EMR. EKS에서 EMR을 시작하는 방법에 대한 자세한 내용은 EKS의 Amazon EMR이란 무엇입니까? 를 참조하십시오.

  • 아마존 EMR 릴리스 5.32.0은 아마존 EMR 스튜디오 (프리뷰) 를 지원합니다. EMR Studio를 시작하는 방법에 대한 자세한 내용은 Amazon EMR 스튜디오 (미리 보기) 를 참조하십시오.

  • 범위가 지정된 관리형 정책: AWS모범 사례에 맞추어 Amazon EMR은 더 이상 사용되지 않는 정책을 대체하기 위해 v2 EMR 범위의 기본 관리형 정책을 도입했습니다. 아마존 EMR 관리형 정책을 참조하십시오.

알려진 문제
  • Amazon EMR 6.3.0 및 6.2.0 프라이빗 서브넷 클러스터의 경우 Ganglia 웹 UI에 액세스할 수 없습니다. “액세스가 거부되었습니다 (403)" 라는 오류가 발생합니다. 스파크, 휴, 제플린 JupyterHub, 리비, 테즈와 같은 다른 웹 UI는 정상적으로 작동합니다. 퍼블릭 서브넷 클러스터의 Ganglia 웹 UI 액세스도 정상적으로 작동합니다. 이 문제를 해결하려면 를 사용하여 마스터 노드에서 httpd 서비스를 다시 시작합니다sudo systemctl restart httpd. 이 문제는 아마존 EMR 6.4.0에서 수정되었습니다.

  • 이전 AL2의 “최대 열린 파일 수” 제한을 낮춥니다 [최신 릴리스에서 수정됨]. 아마존 EMR 릴리스: emr-5.30.x, emr-5.31.0, emr-5.32.0, emr-6.0.0, emr-6.1.0 및 emr-6.2.0은 이전 버전의 Amazon Linux 2 (AL2) 를 기반으로 하며, Amazon EMR 클러스터를 기본 AMI로 생성할 때 “열린 파일 수 제한 수”에 대한 ulimit 설정이 더 낮습니다. Amazon EMR 릴리스 5.30.1, 5.30.2, 5.31.1, 5.32.1, 6.0.1, 6.1.1, 6.2.1, 5.33.0, 6.3.0 이상에는 더 높은 “열린 파일 수” 설정이 포함된 영구 수정 사항이 포함되어 있습니다. 열린 파일 제한이 더 낮은 릴리스는 Spark 작업을 제출할 때 “열린 파일이 너무 많습니다.” 오류를 발생시킵니다. 영향을 받는 릴리스의 Amazon EMR 기본 AMI에는 “최대 열린 파일 수”에 대한 기본 ulimit 설정이 4096으로 지정되어 있으며, 이는 최신 Amazon Linux 2 AMI의 파일 제한인 6536개보다 낮습니다. “최대 열린 파일 수”의 ulimit 하한값을 설정하면 Spark 드라이버와 실행기가 4096개 이상의 파일을 열려고 할 때 Spark 작업이 실패합니다. 이 문제를 해결하기 위해 Amazon EMR에는 클러스터 생성 시 ulimit 설정을 조정하는 부트스트랩 작업 (BA) 스크립트가 있습니다.

    이 문제에 대한 영구적인 수정 사항이 없는 이전 Amazon EMR 버전을 사용하는 경우 다음 해결 방법을 통해 인스턴스 컨트롤러 ulimit를 최대 65536개 파일로 명시적으로 설정할 수 있습니다.

    명령줄에서 ulimit를 명시적으로 설정
    1. /etc/systemd/system/instance-controller.service편집하여 [서비스] 섹션에 다음 매개 변수를 추가합니다.

      LimitNOFILE=65536

      LimitNPROC=65536

    2. 재시작 InstanceController

      $ sudo systemctl daemon-reload

      $ sudo systemctl restart instance-controller

    부트스트랩 작업 (BA) 을 사용하여 제한 설정

    또한 부트스트랩 작업 (BA) 스크립트를 사용하여 클러스터 생성 시 인스턴스 컨트롤러 ulimit를 65536개 파일로 구성할 수 있습니다.

    #!/bin/bash for user in hadoop spark hive; do sudo tee /etc/security/limits.d/$user.conf << EOF $user - nofile 65536 $user - nproc 65536 EOF done for proc in instancecontroller logpusher; do sudo mkdir -p /etc/systemd/system/$proc.service.d/ sudo tee /etc/systemd/system/$proc.service.d/override.conf << EOF [Service] LimitNOFILE=65536 LimitNPROC=65536 EOF pid=$(pgrep -f aws157.$proc.Main) sudo prlimit --pid $pid --nofile=65535:65535 --nproc=65535:65535 done sudo systemctl daemon-reload
  • 중요

    Amazon Linux 또는 Amazon Linux 2 AMI (Amazon Linux 머신 이미지) 를 실행하는 Amazon EMR 클러스터는 기본 Amazon Linux 동작을 사용하며 재부팅이 필요한 중요하고 중요한 커널 업데이트를 자동으로 다운로드하여 설치하지 않습니다. 이는 기본 Amazon Linux AMI를 실행하는 다른 Amazon EC2 인스턴스와 동일한 동작입니다. Amazon EMR 버전이 출시된 후 재부팅이 필요한 새 Amazon Linux 소프트웨어 업데이트 (예: 커널, NVIDIA 및 CUDA 업데이트) 가 제공되는 경우, 기본 AMI를 실행하는 Amazon EMR 클러스터 인스턴스는 해당 업데이트를 자동으로 다운로드하여 설치하지 않습니다. 커널 업데이트를 받으려면 최신 Amazon Linux AMI를 사용하도록 Amazon EMR AMI를 사용자 지정할 수 있습니다.

  • AWSRanger 통합 옵션을 지정하는 보안 구성을 만들기 위한 콘솔 지원은 현재 해당 GovCloud 지역에서 지원되지 않습니다. CLI를 사용하여. Amazon EMR 관리 안내서의 EMR 보안 구성 생성을 참조하십시오.

  • EMR 5.31.0 AtRestEncryption 또는 5.32.0을 사용하는 클러스터에서 또는 HDFS 암호화가 활성화된 경우 Hive 쿼리로 인해 다음과 같은 런타임 예외가 발생합니다.

    TaskAttempt 3 failed, info=[Error: Error while running task ( failure ) : attempt_1604112648850_0001_1_01_000000_3:java.lang.RuntimeException: java.lang.RuntimeException: Hive Runtime Error while closing operators: java.io.IOException: java.util.ServiceConfigurationError: org.apache.hadoop.security.token.TokenIdentifier: Provider org.apache.hadoop.hbase.security.token.AuthenticationTokenIdentifier not found

릴리즈 6.2.0

다음 릴리스 노트에는 Amazon EMR 릴리스 버전 6.2.0에 대한 정보가 포함되어 있습니다. 변경 사항은 6.1.0을 기준으로 합니다.

Initial release date: 2020 12 9

최종 업데이트 날짜: 2021 10 04

지원되는 애플리케이션
  • AWS SDK for Java버전 1.11.828

  • emr-record-server 1.7.0

  • 플링크 버전 1.11.2

  • Ganglia 버전 3.7.2

  • Java 3.2.1

  • 기본 버전 2.2.6-amz-0

  • HBase-operator-tools 1.0.0

  • Hatalog 3.1.2-amzn-0

  • Java 3.2-Aman-3

  • 휴디 버전 0.6.0-아만-1

  • Hue 4.8.0

  • JupyterHub 1.1.0

  • Livy 0.7.0

  • MXNet 1.7.0

  • Oozie 5.2.0

  • Phoenix 버전 5.0.0

  • 피그 버전 0.17.0

  • 프레스토 버전 0.238.3-아만-1

  • PrestoSQL 버전 3.43

  • Spark 3.0.1-AMZ-0

  • 스파크-래피즈 0.2.0

  • TensorFlow 2.3.1

  • 제플린 버전 0.9.0-미리보기1

  • Zookeeper 버전 3.4.14

  • 커넥터 및 드라이버: DynamoDB 커넥터 4.16.0

새로운 기능
  • HBase: 커밋 단계에서 이름 변경을 제거하고 영구 HFile 추적을 추가했습니다. Amazon EMR 릴리스 안내서의 영구 파일 추적을 참조하십시오.

  • HBase: Backported: 압축 시 블록을 강제로 캐시하는 구성을 생성합니다.

  • PrestoDB: 동적 파티션 프루닝 개선 규칙 기반 조인 재정렬은 분할되지 않은 데이터에서 작동합니다.

  • 범위가 지정된 관리형 정책: AWS모범 사례에 맞추어 Amazon EMR은 더 이상 사용되지 않는 정책을 대체하기 위해 v2 EMR 범위의 기본 관리형 정책을 도입했습니다. 아마존 EMR 관리형 정책을 참조하십시오.

  • 인스턴스 메타데이터 서비스 (IMDS) V2 지원 상태: 아마존 EMR 6.2 이상 버전의 경우, 아마존 EMR 컴포넌트는 모든 IMDS 호출에 IMDSv2를 사용합니다. 애플리케이션 코드에 있는 IMDS 호출의 경우, IMDSv1과 IMDsv2를 모두 사용하거나, 추가 보안을 위해 IMDSv2만 사용하도록 IMDS를 구성할 수 있습니다. 이전 Amazon EMR 6.x 릴리스에서 IMDSv1을 비활성화하면 클러스터 시작 오류가 발생합니다.

변경, 개선 및 해결된 문제
  • 이번 릴리스에서는 클러스터를 성공적으로 확장/축소하지 못하거나 애플리케이션 장애가 발생하는 경우 Amazon EMR Scaling과 관련된 문제를 해결하기 위한 릴리스입니다.

  • Amazon EMR 온 클러스터 데몬이 YARN 노드 상태 및 HDFS 노드 상태 수집과 같은 상태 확인 작업을 실행할 때 활용도가 높은 대규모 클러스터에 대한 조정 요청이 실패하는 문제를 수정했습니다. 이는 클러스터 내 데몬이 노드의 상태 데이터를 내부 Amazon EMR 구성 요소에 전달할 수 없었기 때문에 발생했습니다.

  • IP 주소를 재사용할 때 노드 상태를 올바르게 추적하여 조정 작업 중에 안정성을 개선하도록 EMR 온 클러스터 데몬이 개선되었습니다.

  • SPARK-29683. Spark에서 사용 가능한 모든 노드가 거부 목록에 있는 것으로 가정했기 때문에 클러스터 축소 중에 작업 실패가 발생하는 문제가 해결되었습니다.

  • YARN-9011. 클러스터 확장 또는 축소를 시도할 때 YARN decommission에서 경합 상태로 인해 작업 실패가 발생하는 문제가 수정되었습니다.

  • Amazon EMR 온 클러스터 데몬과 YARN/HDFS 간에 노드 상태가 항상 일치하도록 하여 클러스터 조정 중 단계 또는 작업 실패와 관련된 문제를 수정했습니다.

  • Kerberos 인증으로 활성화된 Amazon EMR 클러스터의 축소 및 단계 제출과 같은 클러스터 작업이 실패하는 문제가 수정되었습니다. Amazon EMR 온 클러스터 데몬이 Kerberos 티켓을 갱신하지 않았기 때문입니다. Kerberos 티켓은 마스터 노드에서 실행되는 HDFS/YARN과 안전하게 통신하는 데 필요합니다.

  • 최신 Amazon EMR 릴리스에서는 Amazon EMR의 이전 AL2에 대한 “최대 열린 파일 수” 제한이 낮아지는 문제가 해결되었습니다. Amazon EMR 릴리스 5.30.1, 5.30.2, 5.31.1, 5.32.1, 6.0.1, 6.1.1, 6.2.1, 5.33.0, 6.3.0 이상에는 이제 더 높은 “열린 파일 수” 설정이 포함된 영구 수정 사항이 포함되어 있습니다.

  • Spark: Spark 런타임의 성능이 향상되었습니다.

알려진 문제
  • Amazon EMR 6.2에는 EMR 6.2.0의 /etc/cron.d/libinstance-controller-java 파일에 잘못된 권한이 설정되어 있습니다. 파일에 대한 사용 권한은 645 (-rw-r--r-x) 이며, 이때 사용 권한은 644 (-rw-r--r--) 여야 합니다. 따라서 Amazon EMR 버전 6.2는 인스턴스 상태 로그를 기록하지 않으며 /emr/instance-logs 디렉터리는 비어 있습니다. Amazon EMR 6.3.0 Amazon EMR.

    .

    #!/bin/bash sudo chmod 644 /etc/cron.d/libinstance-controller-java
  • Amazon EMR 6.2.0 및 6.3.0 프라이빗 서브넷 클러스터의 경우 Ganglia 웹 UI에 액세스할 수 없습니다. “액세스가 거부되었습니다 (403)" 라는 오류가 발생합니다. 스파크, 휴, 제플린 JupyterHub, 리비, 테즈와 같은 다른 웹 UI는 정상적으로 작동합니다. 퍼블릭 서브넷 클러스터의 Ganglia 웹 UI 액세스도 정상적으로 작동합니다. 이 문제를 해결하려면 를 사용하여 마스터 노드에서 httpd 서비스를 다시 시작합니다sudo systemctl restart httpd. 이 문제는 아마존 EMR 6.4.0에서 수정되었습니다.

  • Amazon EMR 6.2.0에서 httpd에 계속 장애가 발생하여 신경절을 사용할 수 없게 되는 문제가 있습니다. “서버에 연결할 수 없습니다.” 라는 오류 메시지가 나타납니다. 이 문제로 이미 실행 중인 클러스터를 수정하려면 클러스터 마스터 노드에 SSH로 연결하고 에httpd.conf 있는 파일에 해당 줄을Listen 80 추가합니다/etc/httpd/conf/httpd.conf. 이 문제는 아마존 EMR 6.3.0에서 수정되었습니다.

  • 보안 구성을 사용하는 경우 EMR 6.2.0 클러스터에서 HTTPD가 실패합니다. 이로 인해 Ganglia 웹 애플리케이션 사용자 인터페이스를 사용할 수 없게 됩니다. Ganglia 웹 애플리케이션 사용자 인터페이스에Listen 80 액세스하려면 클러스터의 마스터 노드에 있는/etc/httpd/conf/httpd.conf 파일에 추가하십시오. 클러스터에 연결하는 방법에 대한 자세한 내용은 SSH를 사용하여 마스터 노드에 Connect 참조하십시오.

    또한 EMR Notebooks 노트북은 보안 구성을 사용할 때 EMR 6.2.0 클러스터와의 연결을 설정하지 못합니다. 노트북은 커널을 나열하지 못하고 Spark 작업을 제출하지 못합니다. 대신 다른 버전의 Amazon EMR과 함께 EMR Notebooks 노트북을 사용하는 것이 좋습니다.

  • 이전 AL2의 “최대 열린 파일 수” 제한을 낮춥니다 [최신 릴리스에서 수정됨]. 아마존 EMR 릴리스: emr-5.30.x, emr-5.31.0, emr-5.32.0, emr-6.0.0, emr-6.1.0 및 emr-6.2.0은 이전 버전의 Amazon Linux 2 (AL2) 를 기반으로 하며, Amazon EMR 클러스터를 기본 AMI로 생성할 때 “열린 파일 수 제한 수”에 대한 ulimit 설정이 더 낮습니다. Amazon EMR 릴리스 5.30.1, 5.30.2, 5.31.1, 5.32.1, 6.0.1, 6.1.1, 6.2.1, 5.33.0, 6.3.0 이상에는 더 높은 “열린 파일 수” 설정이 포함된 영구 수정 사항이 포함되어 있습니다. 열린 파일 제한이 더 낮은 릴리스는 Spark 작업을 제출할 때 “열린 파일이 너무 많습니다.” 오류를 발생시킵니다. 영향을 받는 릴리스의 Amazon EMR 기본 AMI에는 “최대 열린 파일 수”에 대한 기본 ulimit 설정이 4096으로 지정되어 있으며, 이는 최신 Amazon Linux 2 AMI의 파일 제한인 6536개보다 낮습니다. “최대 열린 파일 수”의 ulimit 하한값을 설정하면 Spark 드라이버와 실행기가 4096개 이상의 파일을 열려고 할 때 Spark 작업이 실패합니다. 이 문제를 해결하기 위해 Amazon EMR에는 클러스터 생성 시 ulimit 설정을 조정하는 부트스트랩 작업 (BA) 스크립트가 있습니다.

    이 문제에 대한 영구적인 수정 사항이 없는 이전 Amazon EMR 버전을 사용하는 경우 다음 해결 방법을 통해 인스턴스 컨트롤러 ulimit를 최대 65536개 파일로 명시적으로 설정할 수 있습니다.

    명령줄에서 ulimit를 명시적으로 설정
    1. /etc/systemd/system/instance-controller.service편집하여 [서비스] 섹션에 다음 매개 변수를 추가합니다.

      LimitNOFILE=65536

      LimitNPROC=65536

    2. 재시작 InstanceController

      $ sudo systemctl daemon-reload

      $ sudo systemctl restart instance-controller

    부트스트랩 작업 (BA) 을 사용하여 제한 설정

    또한 부트스트랩 작업 (BA) 스크립트를 사용하여 클러스터 생성 시 인스턴스 컨트롤러 ulimit를 65536개 파일로 구성할 수 있습니다.

    #!/bin/bash for user in hadoop spark hive; do sudo tee /etc/security/limits.d/$user.conf << EOF $user - nofile 65536 $user - nproc 65536 EOF done for proc in instancecontroller logpusher; do sudo mkdir -p /etc/systemd/system/$proc.service.d/ sudo tee /etc/systemd/system/$proc.service.d/override.conf << EOF [Service] LimitNOFILE=65536 LimitNPROC=65536 EOF pid=$(pgrep -f aws157.$proc.Main) sudo prlimit --pid $pid --nofile=65535:65535 --nproc=65535:65535 done sudo systemctl daemon-reload
  • 중요

    Amazon EMR 6.1.0 및 6.2.0에는 모든 Hudi 삽입, 업로드 및 삭제 작업에 심각한 영향을 미칠 수 있는 성능 문제가 포함되어 있습니다. Hudi를 Amazon EMR 6.1.0 또는 6.2.0과 함께 사용할 계획이라면AWS 지원팀에 문의하여 패치가 적용된 Hudi RPM을 구해야 합니다.

  • 중요

    Amazon Linux 또는 Amazon Linux 2 AMI (Amazon Linux 머신 이미지) 를 실행하는 Amazon EMR 클러스터는 기본 Amazon Linux 동작을 사용하며 재부팅이 필요한 중요하고 중요한 커널 업데이트를 자동으로 다운로드하여 설치하지 않습니다. 이는 기본 Amazon Linux AMI를 실행하는 다른 Amazon EC2 인스턴스와 동일한 동작입니다. Amazon EMR 버전이 출시된 후 재부팅이 필요한 새 Amazon Linux 소프트웨어 업데이트 (예: 커널, NVIDIA 및 CUDA 업데이트) 가 제공되는 경우, 기본 AMI를 실행하는 Amazon EMR 클러스터 인스턴스는 해당 업데이트를 자동으로 다운로드하여 설치하지 않습니다. 커널 업데이트를 받으려면 최신 Amazon Linux AMI를 사용하도록 Amazon EMR AMI를 사용자 지정할 수 있습니다.

  • 아마존 EMR 6.2.0 메이븐 아티팩트는 게시되지 않았습니다. 이 내용은 Amazon EMR의 future 릴리스와 함께 게시될 예정입니다.

  • HBase 저장소/파일 시스템 테이블을 사용한 영구 HFile 추적은 HBase 영역 복제 기능을 지원하지 않습니다. HBase 영역 복제에 대한 자세한 내용은 타임라인 일관성이 유지되는 고가용성 읽기를 참조하십시오.

  • 아마존 EMR 6.x 및 EMR 5.x 하이브 버킷팅 버전 차이

    EMR 5.x는 OOS 아파치 하이브 2를 사용하는 반면 EMR 6.x에서는 OOS 아파치 하이브 3을 사용합니다. 오픈 소스 Hive2는 버킷팅 버전 1을 사용하는 반면 오픈 소스 Hive3는 버케팅 버전 2를 사용합니다. Hive 2 (EMR 5.x) 와 Hive 3 (EMR 6.x) 간의 버킷팅 버전 차이는 Hive 버킷팅 해싱 기능이 다르다는 것을 의미합니다. 아래 예제를 참조하십시오.

    다음 표는 EMR 6.x 및 EMR 5.x에서 각각 작성된 예제입니다.

    -- Using following LOCATION in EMR 6.x CREATE TABLE test_bucketing (id INT, desc STRING) PARTITIONED BY (day STRING) CLUSTERED BY(id) INTO 128 BUCKETS LOCATION 's3://your-own-s3-bucket/emr-6-bucketing/'; -- Using following LOCATION in EMR 5.x LOCATION 's3://your-own-s3-bucket/emr-5-bucketing/';

    EMR 6.x와 EMR 5.x 모두에 동일한 데이터를 삽입합니다.

    INSERT INTO test_bucketing PARTITION (day='01') VALUES(66, 'some_data'); INSERT INTO test_bucketing PARTITION (day='01') VALUES(200, 'some_data');

    S3 위치를 확인해보면 EMR 6.x (Hive 3) 와 EMR 5.x (Hive 2) 의 해싱 기능이 다르기 때문에 버킷팅 파일 이름이 다른 것으로 나타났습니다.

    [hadoop@ip-10-0-0-122 ~]$ aws s3 ls s3://your-own-s3-bucket/emr-6-bucketing/day=01/ 2020-10-21 20:35:16 13 000025_0 2020-10-21 20:35:22 14 000121_0 [hadoop@ip-10-0-0-122 ~]$ aws s3 ls s3://your-own-s3-bucket/emr-5-bucketing/day=01/ 2020-10-21 20:32:07 13 000066_0 2020-10-21 20:32:51 14 000072_0

    EMR 6.x. 참고로 버킷팅 버전 2를 반환합니다.

    hive> DESCRIBE FORMATTED test_bucketing; ... Table Parameters: bucketing_version 2 ...
  • 여러 마스터 노드 및 Kerberos 인증이 있는 클러스터의 알려진 문제

    EMR 릴리스 5.20.0 이상에서 여러 마스터 노드 및 Kerberos 인증으로 클러스터를 실행하는 경우 클러스터가 일정 기간 실행된 후 축소 또는 단계 제출과 같은 클러스터 작업에 문제가 발생할 수 있습니다. 기간은 정의한 Kerberos 티켓 유효 기간에 따라 다릅니다. 축소 문제는 제출한 자동 축소 요청과 명시적 축소 요청 모두에 영향을 미칩니다. 추가 클러스터 작업도 영향을 받을 수 있습니다.

    해결 방법:

    • 여러 마스터 노드가 있는 EMR 클러스터의 리드 마스터 노드에 대한hadoop 사용자로 SSH를 사용합니다.

    • Kerberoshadoop.

      kinit -kt <keytab_file> <principal>

      일반적으로 keytab 파일은 에 있으며 주 파일은 다음과 같은 형식입니다hadoop/<hostname>@<REALM>./etc/hadoop.keytab

    참고

    이 해결 방법은 Kerberos 티켓이 유효한 기간 동안 유효합니다. 이 기간은 기본적으로 10시간이지만 Kerberos 설정에서 구성할 수 있습니다. Kerberos 티켓이 만료되면 위 명령을 다시 실행해야 합니다.

릴리즈 5.31.0

다음 릴리스 노트에는 Amazon EMR 릴리스 버전 5.31.0에 대한 정보가 포함되어 있습니다. 변경 사항은 5.30.1을 기준으로 합니다.

Initial release date: 2020 10 9

최종 업데이트 날짜: 2020 10 15

업그레이드
  • Amazon Glue 1.13.0

  • Amazon SageMaker Spark SDK 1.4.0

  • Amazon Kinesis 커넥터를 버전 3.5.9로 업그레이드했습니다

  • 버전AWS SDK for Java 1.11.852로 업그레이드되었습니다

  • BigtopTomcat 8.5.56

  • EMR FS를 버전 2.43.0으로 업그레이드했습니다

  • MetricsAndEventsApiGateway EMR 1.4.0

  • EMR S3 2.15.0

  • EMR Solect 1.6.0

  • Flink 1.11.0

  • Hadoop을 2.0

  • Hive 2.3.7.

  • Hudi를 버전 0.6.0으로 업그레이드했습니다.

  • Hue 4.1

  • 1.1.0 JupyterHub

  • Mxnet 1.6.0

  • OpenCV 4.3.0

  • 프레스토를 버전 0.238.3으로 업그레이드했습니다

  • 2.1.0 TensorFlow

변경, 개선 및 해결된 문제
  • 이번 릴리스에서는 클러스터를 성공적으로 확장/축소하지 못하거나 애플리케이션 장애가 발생하는 경우 Amazon EMR Scaling과 관련된 문제를 해결하기 위한 릴리스입니다.

  • Amazon EMR 온 클러스터 데몬이 YARN 노드 상태 및 HDFS 노드 상태 수집과 같은 상태 확인 작업을 실행할 때 활용도가 높은 대규모 클러스터에 대한 조정 요청이 실패하는 문제를 수정했습니다. 이는 클러스터 내 데몬이 노드의 상태 데이터를 내부 Amazon EMR 구성 요소에 전달할 수 없었기 때문에 발생했습니다.

  • IP 주소를 재사용할 때 노드 상태를 올바르게 추적하여 조정 작업 중에 안정성을 개선하도록 EMR 온 클러스터 데몬이 개선되었습니다.

  • SPARK-29683. Spark에서 사용 가능한 모든 노드가 거부 목록에 있는 것으로 가정했기 때문에 클러스터 축소 중에 작업 실패가 발생하는 문제가 해결되었습니다.

  • YARN-9011. 클러스터 확장 또는 축소를 시도할 때 YARN decommission에서 경합 상태로 인해 작업 실패가 발생하는 문제가 수정되었습니다.

  • Amazon EMR 온 클러스터 데몬과 YARN/HDFS 간에 노드 상태가 항상 일치하도록 하여 클러스터 조정 중 단계 또는 작업 실패와 관련된 문제를 수정했습니다.

  • Kerberos 인증으로 활성화된 Amazon EMR 클러스터의 축소 및 단계 제출과 같은 클러스터 작업이 실패하는 문제가 수정되었습니다. Amazon EMR 온 클러스터 데몬이 Kerberos 티켓을 갱신하지 않았기 때문입니다. Kerberos 티켓은 마스터 노드에서 실행되는 HDFS/YARN과 안전하게 통신하는 데 필요합니다.

  • 최신 Amazon EMR 릴리스에서는 Amazon EMR의 이전 AL2에 대한 “최대 열린 파일 수” 제한이 낮아지는 문제가 해결되었습니다. Amazon EMR 릴리스 5.30.1, 5.30.2, 5.31.1, 5.32.1, 6.0.1, 6.1.1, 6.2.1, 5.33.0, 6.3.0 이상에는 이제 더 높은 “열린 파일 수” 설정이 포함된 영구 수정 사항이 포함되어 있습니다.

  • Hive 컬럼 통계는 Amazon EMR 버전 5.31.0 이상에서 지원됩니다.

  • 업그레이드된 구성 요소 버전.

  • 아마존 EMR 5.31.0에서 EMRFS S3EC V2를 Support. S3 Java SDK 릴리스 1.11.837 이상에서는 다양한 보안 개선 사항과 함께 암호화 클라이언트 버전 2 (S3EC V2) 가 도입되었습니다. 자세한 내용은 다음 자료를 참조하세요.

    SDK.

새로운 기능
  • 이전 AL2의 “최대 열린 파일 수” 제한을 낮춥니다 [최신 릴리스에서 수정됨]. 아마존 EMR 릴리스: emr-5.30.x, emr-5.31.0, emr-5.32.0, emr-6.0.0, emr-6.1.0 및 emr-6.2.0은 이전 버전의 Amazon Linux 2 (AL2) 를 기반으로 하며, Amazon EMR 클러스터를 기본 AMI로 생성할 때 “열린 파일 수 제한 수”에 대한 ulimit 설정이 더 낮습니다. Amazon EMR 릴리스 5.30.1, 5.30.2, 5.31.1, 5.32.1, 6.0.1, 6.1.1, 6.2.1, 5.33.0, 6.3.0 이상에는 더 높은 “열린 파일 수” 설정이 포함된 영구 수정 사항이 포함되어 있습니다. 열린 파일 제한이 더 낮은 릴리스는 Spark 작업을 제출할 때 “열린 파일이 너무 많습니다.” 오류를 발생시킵니다. 영향을 받는 릴리스의 Amazon EMR 기본 AMI에는 “최대 열린 파일 수”에 대한 기본 ulimit 설정이 4096으로 지정되어 있으며, 이는 최신 Amazon Linux 2 AMI의 파일 제한인 6536개보다 낮습니다. “최대 열린 파일 수”의 ulimit 하한값을 설정하면 Spark 드라이버와 실행기가 4096개 이상의 파일을 열려고 할 때 Spark 작업이 실패합니다. 이 문제를 해결하기 위해 Amazon EMR에는 클러스터 생성 시 ulimit 설정을 조정하는 부트스트랩 작업 (BA) 스크립트가 있습니다.

    이 문제에 대한 영구적인 수정 사항이 없는 이전 Amazon EMR 버전을 사용하는 경우 다음 해결 방법을 통해 인스턴스 컨트롤러 ulimit를 최대 65536개 파일로 명시적으로 설정할 수 있습니다.

    명령줄에서 ulimit를 명시적으로 설정
    1. /etc/systemd/system/instance-controller.service편집하여 [서비스] 섹션에 다음 매개 변수를 추가합니다.

      LimitNOFILE=65536

      LimitNPROC=65536

    2. 재시작 InstanceController

      $ sudo systemctl daemon-reload

      $ sudo systemctl restart instance-controller

    부트스트랩 작업 (BA) 을 사용하여 제한 설정

    또한 부트스트랩 작업 (BA) 스크립트를 사용하여 클러스터 생성 시 인스턴스 컨트롤러 ulimit를 65536개 파일로 구성할 수 있습니다.

    #!/bin/bash for user in hadoop spark hive; do sudo tee /etc/security/limits.d/$user.conf << EOF $user - nofile 65536 $user - nproc 65536 EOF done for proc in instancecontroller logpusher; do sudo mkdir -p /etc/systemd/system/$proc.service.d/ sudo tee /etc/systemd/system/$proc.service.d/override.conf << EOF [Service] LimitNOFILE=65536 LimitNPROC=65536 EOF pid=$(pgrep -f aws157.$proc.Main) sudo prlimit --pid $pid --nofile=65535:65535 --nproc=65535:65535 done sudo systemctl daemon-reload
  • Amazon EMR 5.31.0을 사용하면 Lake Formation 포메이션과 통합되는 클러스터를 시작할 수 있습니다. 이 통합은 Glue Data Catalog의 데이터베이스와 테이블에 세분화된 열 수준의 데이터 필터링을 제공합니다.AWS 또한 엔터프라이즈 자격 증명 시스템에서 EMR 노트북 또는 Apache Zeppelin에 연동된 Single Sign-On을 사용할 수도 있습니다. AmazonAWS Lake Formation EMR.

    Lake Formation 포메이션이 포함된 Amazon EMR은 현재 16개AWS 지역에서 사용할 수 있습니다. (), (), (), (), (), (), (), (), (), (), (), (), (), (), (), (), (), (), (), (), (), (), (), (), (), (), (), (), ().

알려진 문제
  • 여러 마스터 노드 및 Kerberos 인증이 있는 클러스터의 알려진 문제

    EMR 릴리스 5.20.0 이상에서 여러 마스터 노드 및 Kerberos 인증으로 클러스터를 실행하는 경우 클러스터가 일정 기간 실행된 후 축소 또는 단계 제출과 같은 클러스터 작업에 문제가 발생할 수 있습니다. 기간은 정의한 Kerberos 티켓 유효 기간에 따라 다릅니다. 축소 문제는 제출한 자동 축소 요청과 명시적 축소 요청 모두에 영향을 미칩니다. 추가 클러스터 작업도 영향을 받을 수 있습니다.

    해결 방법:

    • 여러 마스터 노드가 있는 EMR 클러스터의 리드 마스터 노드에 대한hadoop 사용자로 SSH를 사용합니다.

    • Kerberoshadoop.

      kinit -kt <keytab_file> <principal>

      일반적으로 keytab 파일은 에 있으며 주 파일은 다음과 같은 형식입니다hadoop/<hostname>@<REALM>./etc/hadoop.keytab

    참고

    이 해결 방법은 Kerberos 티켓이 유효한 기간 동안 유효합니다. 이 기간은 기본적으로 10시간이지만 Kerberos 설정에서 구성할 수 있습니다. Kerberos 티켓이 만료되면 위 명령을 다시 실행해야 합니다.

  • EMR 5.31.0 AtRestEncryption 또는 5.32.0을 사용하는 클러스터에서 또는 HDFS 암호화가 활성화된 경우 Hive 쿼리로 인해 다음과 같은 런타임 예외가 발생합니다.

    TaskAttempt 3 failed, info=[Error: Error while running task ( failure ) : attempt_1604112648850_0001_1_01_000000_3:java.lang.RuntimeException: java.lang.RuntimeException: Hive Runtime Error while closing operators: java.io.IOException: java.util.ServiceConfigurationError: org.apache.hadoop.security.token.TokenIdentifier: Provider org.apache.hadoop.hbase.security.token.AuthenticationTokenIdentifier not found

릴리즈 6.1.0

다음 릴리스 노트에는 Amazon EMR 릴리스 버전 6.1.0에 대한 정보가 포함되어 있습니다. 변경 사항은 6.0.0을 기준으로 합니다.

Initial release date: 2020 9 04

최종 업데이트 날짜: 2020 10 15

지원되는 애플리케이션
  • AWS SDK for Java버전 1.11.828

  • Flink 1.11.0

  • Ganglia 버전 3.7.2

  • Java 3.2.1

  • HBase 2.2.5

  • HBase-operator-tools 1.0.0

  • Hatalog 3.1.2-amzn-0

  • Java 3.1.2-Aman-1

  • 후디 버전 0.5.2-인큐베이팅

  • Hue 4.7.1

  • JupyterHub 1.1.0

  • Livy 0.7.0

  • MXNet 1.6.0

  • Oozie 5.2.0

  • Phoenix 버전 5.0.0

  • 프레스토 버전 0.232

  • PrestoSQL 버전 3.38

  • Spark 3.0.0-amz-0

  • TensorFlow 2.1.0

  • 제플린 버전 0.9.0-미리보기1

  • Zookeeper 버전 3.4.14

  • 커넥터 및 드라이버: DynamoDB 커넥터 4.14.0

새로운 기능
  • Amazon EMR 6.1.0.

  • M6g 범용 인스턴스 유형은 Amazon EMR 버전 6.1.0 및 5.30.0부터 지원됩니다. 자세한 내용은 Amazon EMR 관리 안내서의 지원되는 인스턴스 유형을 참조하십시오.

  • EC2 배치 그룹 기능은 Amazon EMR 버전 5.23.0부터 여러 마스터 노드 클러스터의 옵션으로 지원됩니다. 현재 배치 그룹 기능에서는 마스터 노드 유형만 지원되며 해당 마스터 노드에SPREAD 전략이 적용됩니다. 이SPREAD 전략은 소규모 인스턴스 그룹을 별도의 기본 하드웨어에 배치하여 하드웨어 장애 발생 시 여러 마스터 노드가 손실되는 것을 방지합니다. 자세한 내용은 Amazon EMR 관리 안내서의 EC2 배치 그룹과의 EMR 통합을 참조하십시오.

  • 관리형 조정 — Amazon EMR 버전 6.1.0에서는 EMR 관리형 조정을 활성화하여 워크로드에 따라 클러스터의 인스턴스 또는 단위 수를 자동으로 늘리거나 줄일 수 있습니다. EMR은 클러스터 지표를 지속적으로 평가하여 비용과 속도 측면에서 클러스터를 최적화하는 조정 결정을 내립니다. Amazon EMR 5.30.0. 자세한 내용은 Amazon EMR 관리 안내서의 클러스터 리소스 규모 조정을 참조하십시오.

  • PrestoSQL 버전 3.38은 EMR 6.1.0에서 지원됩니다. 자세한 내용은 Presto를 참조하십시오.

    • PrestoSQL EMR 6.1.0 이상 버전에서만 지원되며 EMR 6.0.0 또는 EMR 5.x에서는 지원되지 않습니다.

    • 애플리케이션 이름은 클러스터에 PrestoDB를 설치하는 데Presto 계속 사용됩니다. 클러스터에 PrestoSQL을 설치하려면 애플리케이션 이름을 사용합니다PrestoSQL.

    • PrestoDB 또는 PrestoSQL 중 하나를 설치할 수 있지만 단일 클러스터에 둘 다 설치할 수는 없습니다. 클러스터를 생성하려고 할 때 PrestoDB와 PrestoSQL을 모두 지정하면 검증 오류가 발생하고 클러스터 생성 요청이 실패합니다.

    • PrestoSQL. 다중 마스터 클러스터에서 PrestoSQL 또는 PrestoDB를 실행하려면 외부 Hive 메타스토어가 필요합니다. 여러 마스터 노드가 있는 EMR 클러스터에서 지원되는 애플리케이션을 참조하십시오.

  • Docker를 사용하는 아파치 하둡과 아파치 스파크에서 ECR auto 인증 지원: Docker Service Elastic Container Registry (Amazon ECR) Docker.

    Amazon EMR 6.x를 사용하여 Docker를 구성하고 Docker로 스파크 애플리케이션을 실행합니다.

  • EMR은 아파치 하이브 ACID 트랜잭션을 지원합니다. Amazon EMR 6.1.0에는 Hive ACID 트랜잭션에 대한 지원이 추가되어 데이터베이스의 ACID 속성을 준수합니다. Amazon Storage Simple Storage Service (Amazon S3) Hive.INSERT, UPDATE, DELETE,MERGE 이는 스트리밍 수집, 데이터 재구성, MERGE를 사용한 대량 업데이트, 느리게 변화하는 차원과 같은 사용 사례의 핵심 기능입니다. 구성 예제 및 사용 사례를 비롯한 자세한 내용은 Amazon EMR에서 Apache Hive ACID 트랜잭션을 지원합니다.

변경, 개선 및 해결된 문제
  • 이번 릴리스에서는 클러스터를 성공적으로 확장/축소하지 못하거나 애플리케이션 장애가 발생하는 경우 Amazon EMR Scaling과 관련된 문제를 해결하기 위한 릴리스입니다.

  • Amazon EMR 온 클러스터 데몬이 YARN 노드 상태 및 HDFS 노드 상태 수집과 같은 상태 확인 작업을 실행할 때 활용도가 높은 대규모 클러스터에 대한 조정 요청이 실패하는 문제를 수정했습니다. 이는 클러스터 내 데몬이 노드의 상태 데이터를 내부 Amazon EMR 구성 요소에 전달할 수 없었기 때문에 발생했습니다.

  • IP 주소를 재사용할 때 노드 상태를 올바르게 추적하여 조정 작업 중에 안정성을 개선하도록 EMR 온 클러스터 데몬이 개선되었습니다.

  • SPARK-29683. Spark에서 사용 가능한 모든 노드가 거부 목록에 있는 것으로 가정했기 때문에 클러스터 축소 중에 작업 실패가 발생하는 문제가 해결되었습니다.

  • YARN-9011. 클러스터 확장 또는 축소를 시도할 때 YARN decommission에서 경합 상태로 인해 작업 실패가 발생하는 문제가 수정되었습니다.

  • Amazon EMR 온 클러스터 데몬과 YARN/HDFS 간에 노드 상태가 항상 일치하도록 하여 클러스터 조정 중 단계 또는 작업 실패와 관련된 문제를 수정했습니다.

  • Kerberos 인증으로 활성화된 Amazon EMR 클러스터의 축소 및 단계 제출과 같은 클러스터 작업이 실패하는 문제가 수정되었습니다. Amazon EMR 온 클러스터 데몬이 Kerberos 티켓을 갱신하지 않았기 때문입니다. Kerberos 티켓은 마스터 노드에서 실행되는 HDFS/YARN과 안전하게 통신하는 데 필요합니다.

  • 최신 Amazon EMR 릴리스에서는 Amazon EMR의 이전 AL2에 대한 “최대 열린 파일 수” 제한이 낮아지는 문제가 해결되었습니다. Amazon EMR 릴리스 5.30.1, 5.30.2, 5.31.1, 5.32.1, 6.0.1, 6.1.1, 6.2.1, 5.33.0, 6.3.0 이상에는 이제 더 높은 “열린 파일 수” 설정이 포함된 영구 수정 사항이 포함되어 있습니다.

  • 아파치 플링크는 EMR 6.0.0에서는 지원되지 않지만 플링크 1.11.0이 설치된 EMR 6.1.0에서는 지원됩니다. 이것은 공식적으로 하둡 3을 지원하는 Flink의 첫 번째 버전입니다. 아파치 플링크 1.11.0 출시 발표를 참조하십시오.

  • 신경절은 기본 EMR 6.1.0 패키지 번들에서 제거되었습니다.

알려진 문제
  • 이전 AL2의 “최대 열린 파일 수” 제한을 낮춥니다 [최신 릴리스에서 수정됨]. 아마존 EMR 릴리스: emr-5.30.x, emr-5.31.0, emr-5.32.0, emr-6.0.0, emr-6.1.0 및 emr-6.2.0은 이전 버전의 Amazon Linux 2 (AL2) 를 기반으로 하며, Amazon EMR 클러스터를 기본 AMI로 생성할 때 “열린 파일 수 제한 수”에 대한 ulimit 설정이 더 낮습니다. Amazon EMR 릴리스 5.30.1, 5.30.2, 5.31.1, 5.32.1, 6.0.1, 6.1.1, 6.2.1, 5.33.0, 6.3.0 이상에는 더 높은 “열린 파일 수” 설정이 포함된 영구 수정 사항이 포함되어 있습니다. 열린 파일 제한이 더 낮은 릴리스는 Spark 작업을 제출할 때 “열린 파일이 너무 많습니다.” 오류를 발생시킵니다. 영향을 받는 릴리스의 Amazon EMR 기본 AMI에는 “최대 열린 파일 수”에 대한 기본 ulimit 설정이 4096으로 지정되어 있으며, 이는 최신 Amazon Linux 2 AMI의 파일 제한인 6536개보다 낮습니다. “최대 열린 파일 수”의 ulimit 하한값을 설정하면 Spark 드라이버와 실행기가 4096개 이상의 파일을 열려고 할 때 Spark 작업이 실패합니다. 이 문제를 해결하기 위해 Amazon EMR에는 클러스터 생성 시 ulimit 설정을 조정하는 부트스트랩 작업 (BA) 스크립트가 있습니다.

    이 문제에 대한 영구적인 수정 사항이 없는 이전 Amazon EMR 버전을 사용하는 경우 다음 해결 방법을 통해 인스턴스 컨트롤러 ulimit를 최대 65536개 파일로 명시적으로 설정할 수 있습니다.

    명령줄에서 ulimit를 명시적으로 설정
    1. /etc/systemd/system/instance-controller.service편집하여 [서비스] 섹션에 다음 매개 변수를 추가합니다.

      LimitNOFILE=65536

      LimitNPROC=65536

    2. 재시작 InstanceController

      $ sudo systemctl daemon-reload

      $ sudo systemctl restart instance-controller

    부트스트랩 작업 (BA) 을 사용하여 제한 설정

    또한 부트스트랩 작업 (BA) 스크립트를 사용하여 클러스터 생성 시 인스턴스 컨트롤러 ulimit를 65536개 파일로 구성할 수 있습니다.

    #!/bin/bash for user in hadoop spark hive; do sudo tee /etc/security/limits.d/$user.conf << EOF $user - nofile 65536 $user - nproc 65536 EOF done for proc in instancecontroller logpusher; do sudo mkdir -p /etc/systemd/system/$proc.service.d/ sudo tee /etc/systemd/system/$proc.service.d/override.conf << EOF [Service] LimitNOFILE=65536 LimitNPROC=65536 EOF pid=$(pgrep -f aws157.$proc.Main) sudo prlimit --pid $pid --nofile=65535:65535 --nproc=65535:65535 done sudo systemctl daemon-reload
  • 중요

    Amazon EMR 6.1.0 및 6.2.0에는 모든 Hudi 삽입, 업로드 및 삭제 작업에 심각한 영향을 미칠 수 있는 성능 문제가 포함되어 있습니다. Hudi를 Amazon EMR 6.1.0 또는 6.2.0과 함께 사용할 계획이라면AWS 지원팀에 문의하여 패치가 적용된 Hudi RPM을 구해야 합니다.

  • spark.driver.extraJavaOptionsspark.executor.extraJavaOptions 를 사용하여 사용자 지정 가비지 컬렉션 구성을 설정하면 충돌하는 가비지 컬렉션 구성으로 인해 EMR 6.1에서 드라이버/실행기 시작 실패가 발생합니다. EMR 릴리스 6.1.0에서는spark.executor.defaultJavaOptions 대신 속성을spark.driver.defaultJavaOptions 사용하여 드라이버와 실행기에 대한 사용자 지정 Spark 가비지 컬렉션 구성을 지정해야 합니다. Apache Spark 런타임 환경Amazon EMR 6.1.0에서의 스파크 가비지 컬렉션 구성에서 자세한 내용을 읽어보십시오.

  • Pig를 Oozie와 함께 사용하면 (Hue는 Oozie 액션을 사용하여 Pig 스크립트를 실행하므로 Hue 내에서) native-lzo 라이브러리를 로드할 수 없다는 오류가 발생합니다. 이 오류 메시지는 정보 제공용이며 Pig 실행을 차단하지 않습니다.

  • 후디 동시성 Support: 현재 Hudi는 단일 Hudi 테이블에 대한 동시 쓰기를 지원하지 않습니다. 또한 Hudi는 새 작가가 시작하도록 허용하기 전에 진행 중인 작성자가 수행한 모든 변경 사항을 롤백합니다. 동시 쓰기는 이 메커니즘을 방해하고 경합 상태를 유발하여 데이터 손상을 초래할 수 있습니다. 데이터 처리 워크플로의 일부로 언제든지 Hudi 테이블에 대해 작동하는 Hudi 작성기가 한 명뿐인지 확인해야 합니다. Hudi는 동일한 Hudi 테이블에서 작동하는 여러 동시 리더를 지원합니다.

  • 여러 마스터 노드 및 Kerberos 인증이 있는 클러스터의 알려진 문제

    EMR 릴리스 5.20.0 이상에서 여러 마스터 노드 및 Kerberos 인증으로 클러스터를 실행하는 경우 클러스터가 일정 기간 실행된 후 축소 또는 단계 제출과 같은 클러스터 작업에 문제가 발생할 수 있습니다. 기간은 정의한 Kerberos 티켓 유효 기간에 따라 다릅니다. 축소 문제는 제출한 자동 축소 요청과 명시적 축소 요청 모두에 영향을 미칩니다. 추가 클러스터 작업도 영향을 받을 수 있습니다.

    해결 방법:

    • 여러 마스터 노드가 있는 EMR 클러스터의 리드 마스터 노드에 대한hadoop 사용자로 SSH를 사용합니다.

    • Kerberoshadoop.

      kinit -kt <keytab_file> <principal>

      일반적으로 keytab 파일은 에 있으며 주 파일은 다음과 같은 형식입니다hadoop/<hostname>@<REALM>./etc/hadoop.keytab

    참고

    이 해결 방법은 Kerberos 티켓이 유효한 기간 동안 유효합니다. 이 기간은 기본적으로 10시간이지만 Kerberos 설정에서 구성할 수 있습니다. Kerberos 티켓이 만료되면 위 명령을 다시 실행해야 합니다.

  • Amazon EMR 6.1.0에는 Presto를 실행하는 클러스터에 영향을 미치는 문제가 있습니다. 일정 기간 (일) 이 지나면 클러스터에서 다음과 같은 오류가 발생할 수 있습니다. “su: /bin/bash 실행 실패: 리소스를 일시적으로 사용할 수 없습니다.” 또는 “채널 0에서 셸 요청이 실패했습니다.” 이 문제는 내부 Amazon EMR 프로세스 (InstanceController) 가 너무 많은 경량 프로세스 (LWP) 를 생성하여 결국 하둡 사용자가 nproc 제한을 초과하게 되기 때문에 발생합니다. 이렇게 하면 사용자가 추가 프로세스를 열 수 없습니다. 이 문제의 해결 방법은 EMR 6.2.0으로 업그레이드하는 것입니다.

릴리즈 6.0.0

다음 릴리스 노트에는 Amazon EMR 릴리스 버전 6.0.0에 대한 정보가 포함되어 있습니다.

Initial release date: 2020년 3월 10일

지원되는 애플리케이션
  • AWS SDK for Java 버전 1.11.711

  • Ganglia 버전 3.7.2

  • Hadoop 버전 3.2.1

  • HBase 버전 2.2.3

  • HCatalog 버전 3.1.2

  • Hive 버전 3.1.2

  • Hudi 버전 0.5.0-incubating

  • Hue 버전 4.4.0

  • JupyterHub 1.0.0

  • Livy 버전 0.6.0

  • MXNet 버전 1.5.1

  • Oozie 버전 5.1.0

  • Phoenix 버전 5.0.0

  • Presto 버전 0.230

  • Spark 버전 2.4.4

  • TensorFlow 버전 1.14.0

  • Zeppelin 버전 0.9.0-SNAPSHOT

  • Zookeeper 버전 3.4.14

  • 커넥터 및 드라이버: DynamoDB 커넥터 4.14.0

참고

플링크, 스쿱, 피그, 마하우트는 Amazon EMR 버전 6.0.0에서 사용할 수 없습니다.

새로운 기능
  • YARN 도커 런타임 지원 - Spark 작업과 같은 YARN 애플리케이션은 이제 도커 컨테이너의 컨텍스트에서 실행될 수 있습니다. 따라서 Amazon EMR 클러스터에 사용자 지정 라이브러리를 설치할 필요 없이 Docker 이미지의 종속성을 쉽게 정의할 수 있습니다. 자세한 내용은 Amazon EMR 6.0.0을 사용하여 Docker와 함께 Docker 통합 구성 및 Spark 애플리케이션 실행을 참조하십시오.

  • Hive LLAP 지원 - Hive는 이제 향상된 쿼리 성능을 위해 LLAP 실행 모드를 지원합니다. 자세한 내용은 Hive LLAP 사용을 참조하십시오.

변경, 개선 및 해결된 문제
  • 이번 릴리스에서는 클러스터를 성공적으로 확장/축소하지 못하거나 애플리케이션 장애가 발생하는 경우 Amazon EMR Scaling과 관련된 문제를 해결하기 위한 릴리스입니다.

  • Amazon EMR 온 클러스터 데몬이 YARN 노드 상태 및 HDFS 노드 상태 수집과 같은 상태 확인 작업을 실행할 때 활용도가 높은 대규모 클러스터에 대한 조정 요청이 실패하는 문제를 수정했습니다. 이는 클러스터 내 데몬이 노드의 상태 데이터를 내부 Amazon EMR 구성 요소에 전달할 수 없었기 때문에 발생했습니다.

  • IP 주소를 재사용할 때 노드 상태를 올바르게 추적하여 조정 작업 중에 안정성을 개선하도록 EMR 온 클러스터 데몬이 개선되었습니다.

  • SPARK-29683. Spark에서 사용 가능한 모든 노드가 거부 목록에 있는 것으로 가정했기 때문에 클러스터 축소 중에 작업 실패가 발생하는 문제가 해결되었습니다.

  • YARN-9011. 클러스터 확장 또는 축소를 시도할 때 YARN decommission에서 경합 상태로 인해 작업 실패가 발생하는 문제가 수정되었습니다.

  • Amazon EMR 온 클러스터 데몬과 YARN/HDFS 간에 노드 상태가 항상 일치하도록 하여 클러스터 조정 중 단계 또는 작업 실패와 관련된 문제를 수정했습니다.

  • Kerberos 인증으로 활성화된 Amazon EMR 클러스터의 축소 및 단계 제출과 같은 클러스터 작업이 실패하는 문제가 수정되었습니다. Amazon EMR 온 클러스터 데몬이 Kerberos 티켓을 갱신하지 않았기 때문입니다. Kerberos 티켓은 마스터 노드에서 실행되는 HDFS/YARN과 안전하게 통신하는 데 필요합니다.

  • 최신 Amazon EMR 릴리스에서는 Amazon EMR의 이전 AL2에 대한 “최대 열린 파일 수” 제한이 낮아지는 문제가 해결되었습니다. Amazon EMR 릴리스 5.30.1, 5.30.2, 5.31.1, 5.32.1, 6.0.1, 6.1.1, 6.2.1, 5.33.0, 6.3.0 이상에는 이제 더 높은 “열린 파일 수” 설정이 포함된 영구 수정 사항이 포함되어 있습니다.

  • Amazon Linux

    • Amazon Linux 2는 EMR 6.x 릴리스 시리즈의 운영 체제입니다.

    • systemdAmazon Linux 1에서upstart 사용되는 대신 서비스 관리에 사용됩니다.

  • Java Development Kit(JDK)

    • Coretto JDK 8은 EMR 6.x 릴리스 시리즈의 기본 JDK입니다.

  • Scala

    • Scala 2.12는 Apache Spark 및 Apache Livy와 함께 사용됩니다.

  • Python 3

    • Python 3은 이제 EMR에서 Python의 기본 버전입니다.

  • YAR의 노드 레이블

    • Amazon EMR 6.x 릴리스 시리즈부터 YARN 노드 레이블 기능은 기본적으로 비활성화되어 있습니다. 애플리케이션 마스터 프로세스는 기본적으로 코어 및 작업 노드 모두에서 실행할 수 있습니다. yarn.node-labels.enabledyarn.node-labels.am.default-node-label-expression 속성을 구성하여 YARN 노드 레이블 기능을 활성화할 수 있습니다. 자세한 내용은 마스터, 코어 및 작업 노드 이해를 참조하십시오.

알려진 문제
  • 이전 AL2의 “최대 열린 파일 수” 제한을 낮춥니다 [최신 릴리스에서 수정됨]. 아마존 EMR 릴리스: emr-5.30.x, emr-5.31.0, emr-5.32.0, emr-6.0.0, emr-6.1.0 및 emr-6.2.0은 이전 버전의 Amazon Linux 2 (AL2) 를 기반으로 하며, Amazon EMR 클러스터를 기본 AMI로 생성할 때 “열린 파일 수 제한 수”에 대한 ulimit 설정이 더 낮습니다. Amazon EMR 릴리스 5.30.1, 5.30.2, 5.31.1, 5.32.1, 6.0.1, 6.1.1, 6.2.1, 5.33.0, 6.3.0 이상에는 더 높은 “열린 파일 수” 설정이 포함된 영구 수정 사항이 포함되어 있습니다. 열린 파일 제한이 더 낮은 릴리스는 Spark 작업을 제출할 때 “열린 파일이 너무 많습니다.” 오류를 발생시킵니다. 영향을 받는 릴리스의 Amazon EMR 기본 AMI에는 “최대 열린 파일 수”에 대한 기본 ulimit 설정이 4096으로 지정되어 있으며, 이는 최신 Amazon Linux 2 AMI의 파일 제한인 6536개보다 낮습니다. “최대 열린 파일 수”의 ulimit 하한값을 설정하면 Spark 드라이버와 실행기가 4096개 이상의 파일을 열려고 할 때 Spark 작업이 실패합니다. 이 문제를 해결하기 위해 Amazon EMR에는 클러스터 생성 시 ulimit 설정을 조정하는 부트스트랩 작업 (BA) 스크립트가 있습니다.

    이 문제에 대한 영구적인 수정 사항이 없는 이전 Amazon EMR 버전을 사용하는 경우 다음 해결 방법을 통해 인스턴스 컨트롤러 ulimit를 최대 65536개 파일로 명시적으로 설정할 수 있습니다.

    명령줄에서 ulimit를 명시적으로 설정
    1. /etc/systemd/system/instance-controller.service편집하여 [서비스] 섹션에 다음 매개 변수를 추가합니다.

      LimitNOFILE=65536

      LimitNPROC=65536

    2. 재시작 InstanceController

      $ sudo systemctl daemon-reload

      $ sudo systemctl restart instance-controller

    부트스트랩 작업 (BA) 을 사용하여 제한 설정

    또한 부트스트랩 작업 (BA) 스크립트를 사용하여 클러스터 생성 시 인스턴스 컨트롤러 ulimit를 65536개 파일로 구성할 수 있습니다.

    #!/bin/bash for user in hadoop spark hive; do sudo tee /etc/security/limits.d/$user.conf << EOF $user - nofile 65536 $user - nproc 65536 EOF done for proc in instancecontroller logpusher; do sudo mkdir -p /etc/systemd/system/$proc.service.d/ sudo tee /etc/systemd/system/$proc.service.d/override.conf << EOF [Service] LimitNOFILE=65536 LimitNPROC=65536 EOF pid=$(pgrep -f aws157.$proc.Main) sudo prlimit --pid $pid --nofile=65535:65535 --nproc=65535:65535 done sudo systemctl daemon-reload
  • SparkR 및 스파크 셸을 PySpark 포함한 Spark 대화형 셸은 추가 라이브러리와 함께 Docker를 사용하는 것을 지원하지 않습니다.

  • Amazon EMR 버전 6.0.0과 함께 Python 3을 사용하려면PATH 에 추가해야 합니다yarn.nodemanager.env-whitelist.

  • AWSGlue 데이터 카탈로그를 Hive용 메타스토어로 사용하는 경우 LLAP (라이브 롱 앤 프로세스) 기능이 지원되지 않습니다.

  • Spark 및 Docker 통합과 함께 Amazon EMR 6.0.0을 사용하는 경우, Docker 런타임과 함께 Spark 작업을 제출할 때 실패를 방지하려면 클러스터의 인스턴스를 동일한 인스턴스 유형과 동일한 양의 EBS 볼륨으로 구성해야 합니다.

  • 아마존 EMR 6.0.0에서 Amazon S3 스토리지 모드의 HBase는 HBASE-24286. 문제의 영향을 받습니다. 기존 S3 데이터를 사용하여 클러스터를 생성할 때는 HBase Master를 초기화할 수 없습니다.

  • 여러 마스터 노드 및 Kerberos 인증이 있는 클러스터의 알려진 문제

    EMR 릴리스 5.20.0 이상에서 여러 마스터 노드 및 Kerberos 인증으로 클러스터를 실행하는 경우 클러스터가 일정 기간 실행된 후 축소 또는 단계 제출과 같은 클러스터 작업에 문제가 발생할 수 있습니다. 기간은 정의한 Kerberos 티켓 유효 기간에 따라 다릅니다. 축소 문제는 제출한 자동 축소 요청과 명시적 축소 요청 모두에 영향을 미칩니다. 추가 클러스터 작업도 영향을 받을 수 있습니다.

    해결 방법:

    • 여러 마스터 노드가 있는 EMR 클러스터의 리드 마스터 노드에 대한hadoop 사용자로 SSH를 사용합니다.

    • Kerberoshadoop.

      kinit -kt <keytab_file> <principal>

      일반적으로 keytab 파일은 에 있으며 주 파일은 다음과 같은 형식입니다hadoop/<hostname>@<REALM>./etc/hadoop.keytab

    참고

    이 해결 방법은 Kerberos 티켓이 유효한 기간 동안 유효합니다. 이 기간은 기본적으로 10시간이지만 Kerberos 설정에서 구성할 수 있습니다. Kerberos 티켓이 만료되면 위 명령을 다시 실행해야 합니다.

릴리즈 5.30.1

다음 릴리스 노트에는 Amazon EMR 릴리스 버전 5.30.1에 대한 정보가 포함되어 있습니다. 변경 사항은 5.30.0을 기준으로 합니다.

Initial release date: 2020년 6월 30일

최종 업데이트 날짜: 2020년 8월 24일

변경, 개선 및 해결된 문제
  • 최신 Amazon EMR 릴리스에서는 Amazon EMR의 이전 AL2에 대한 “최대 열린 파일 수” 제한이 낮아지는 문제가 해결되었습니다. Amazon EMR 릴리스 5.30.1, 5.30.2, 5.31.1, 5.32.1, 6.0.1, 6.1.1, 6.2.1, 5.33.0, 6.3.0 이상에는 이제 더 높은 “열린 파일 수” 설정이 포함된 영구 수정 사항이 포함되어 있습니다.

  • 인스턴스 컨트롤러 프로세스에서 무한한 수의 프로세스를 생성하던 문제가 해결되었습니다.

  • Hue에서 Hive 쿼리를 실행할 수 없어 “데이터베이스가 잠겼습니다.” 메시지가 표시되고 쿼리 실행이 되지 않는 문제가 해결되었습니다.

  • EMR 클러스터에서 더 많은 작업을 동시에 실행할 수 있도록 Spark 문제를 수정했습니다.

  • Jupyter 서버에서 “너무 많은 파일 열기 오류”를 유발하는 Jupyter 노트북 문제를 수정했습니다.

  • 클러스터 시작 시간 관련 문제가 해결되었습니다.

새로운 기능
  • Tez UI 및 YARN 타임라인 서버 영구 애플리케이션 인터페이스는 Amazon EMR 버전 6.x 및 EMR 버전 5.30.1 이상에서 사용할 수 있습니다. 영구 애플리케이션 기록에 대한 원클릭 링크 액세스를 통해 SSH 연결을 통해 웹 프록시를 설정하지 않고도 작업 기록에 빠르게 액세스할 수 있습니다. 활성 및 종료된 클러스터의 로그는 애플리케이션 종료 후 30일 동안 사용할 수 있습니다. 자세한 내용은 Amazon EMR 관리 안내서의 영구 애플리케이션 사용자 인터페이스 보기를 참조하십시오.

  • EMR 노트북 실행 API는 스크립트 또는 명령줄을 통해 EMR 노트북을 실행하는 데 사용할 수 있습니다. AWS콘솔 없이 EMR 노트북 실행을 시작, 중지, 나열 및 설명할 수 있으므로 EMR 노트북을 프로그래밍 방식으로 제어할 수 있습니다. 매개변수화된 노트북 셀을 사용하면 각 새 매개변수 값 세트에 대해 노트북 사본을 만들지 않고도 노트북에 서로 다른 매개변수 값을 전달할 수 있습니다. EMR API 액션을 참조하십시오. 샘플 코드는 EMR Notebooks Notebook을 프로그래밍 방식으로 실행하기 위한 샘플 명령을 참조하십시오.

알려진 문제
  • 이전 AL2의 “최대 열린 파일 수” 제한을 낮춥니다 [최신 릴리스에서 수정됨]. 아마존 EMR 릴리스: emr-5.30.x, emr-5.31.0, emr-5.32.0, emr-6.0.0, emr-6.1.0 및 emr-6.2.0은 이전 버전의 Amazon Linux 2 (AL2) 를 기반으로 하며, Amazon EMR 클러스터를 기본 AMI로 생성할 때 “열린 파일 수 제한 수”에 대한 ulimit 설정이 더 낮습니다. Amazon EMR 릴리스 5.30.1, 5.30.2, 5.31.1, 5.32.1, 6.0.1, 6.1.1, 6.2.1, 5.33.0, 6.3.0 이상에는 더 높은 “열린 파일 수” 설정이 포함된 영구 수정 사항이 포함되어 있습니다. 열린 파일 제한이 더 낮은 릴리스는 Spark 작업을 제출할 때 “열린 파일이 너무 많습니다.” 오류를 발생시킵니다. 영향을 받는 릴리스의 Amazon EMR 기본 AMI에는 “최대 열린 파일 수”에 대한 기본 ulimit 설정이 4096으로 지정되어 있으며, 이는 최신 Amazon Linux 2 AMI의 파일 제한인 6536개보다 낮습니다. “최대 열린 파일 수”의 ulimit 하한값을 설정하면 Spark 드라이버와 실행기가 4096개 이상의 파일을 열려고 할 때 Spark 작업이 실패합니다. 이 문제를 해결하기 위해 Amazon EMR에는 클러스터 생성 시 ulimit 설정을 조정하는 부트스트랩 작업 (BA) 스크립트가 있습니다.

    이 문제에 대한 영구적인 수정 사항이 없는 이전 Amazon EMR 버전을 사용하는 경우 다음 해결 방법을 통해 인스턴스 컨트롤러 ulimit를 최대 65536개 파일로 명시적으로 설정할 수 있습니다.

    명령줄에서 ulimit를 명시적으로 설정
    1. /etc/systemd/system/instance-controller.service편집하여 [서비스] 섹션에 다음 매개 변수를 추가합니다.

      LimitNOFILE=65536

      LimitNPROC=65536

    2. 재시작 InstanceController

      $ sudo systemctl daemon-reload

      $ sudo systemctl restart instance-controller

    부트스트랩 작업 (BA) 을 사용하여 제한 설정

    또한 부트스트랩 작업 (BA) 스크립트를 사용하여 클러스터 생성 시 인스턴스 컨트롤러 ulimit를 65536개 파일로 구성할 수 있습니다.

    #!/bin/bash for user in hadoop spark hive; do sudo tee /etc/security/limits.d/$user.conf << EOF $user - nofile 65536 $user - nproc 65536 EOF done for proc in instancecontroller logpusher; do sudo mkdir -p /etc/systemd/system/$proc.service.d/ sudo tee /etc/systemd/system/$proc.service.d/override.conf << EOF [Service] LimitNOFILE=65536 LimitNPROC=65536 EOF pid=$(pgrep -f aws157.$proc.Main) sudo prlimit --pid $pid --nofile=65535:65535 --nproc=65535:65535 done sudo systemctl daemon-reload
  • EMR Notebooks

    클러스터 마스터 노드에 커널과 추가 Python 라이브러리를 설치할 수 있는 기능은 EMR 버전 5.30.1에서 기본적으로 비활성화되어 있습니다. 이 기능에 대한 자세한 내용은 클러스터 마스터 노드에 커널 및 Python 라이브러리 설치를 참조하십시오.

    .

    1. EMR Notebooks Notebooks의 서비스 역할에 연결된 권한 정책이 다음 작업을 허용하는지 확인하십시오.

      elasticmapreduce:ListSteps

      자세한 내용은 EMR 노트북 서비스 역할 단원을 참조하십시오.

    2. 클러스터에서 다음 예와 같이 EMR Notebooks 설정하는 단계를AWS CLI 실행하려면 를 사용하십시오. us-east-1을 클러스터가 있는 지역으로 바꾸십시오. 자세한 내용은 를 사용하여 클러스터에 단계 추가를 참조하십시오AWS CLI.

      aws emr add-steps --cluster-id MyClusterID --steps Type=CUSTOM_JAR,Name=EMRNotebooksSetup,ActionOnFailure=CONTINUE,Jar=s3://us-east-1.elasticmapreduce/libs/script-runner/script-runner.jar,Args=["s3://awssupportdatasvcs.com/bootstrap-actions/EMRNotebooksSetup/emr-notebooks-setup.sh"]
  • 관리형 스케일링

    Presto를 설치하지 않은 5.30.0 및 5.30.1 클러스터에서 관리형 조정 작업을 수행하면 애플리케이션 장애가 발생하거나 균일한 인스턴스 그룹 또는 인스턴스 플릿이 해당ARRESTED 상태로 유지될 수 있습니다. 특히 축소 작업 후 확장 작업이 빠르게 이어지는 경우에는 더욱 그렇습니다.

    이 문제를 해결하려면 작업에 Presto가 필요하지 않더라도 클러스터를 만들 때 설치할 응용 프로그램으로 Presto를 선택하십시오.

  • 여러 마스터 노드 및 Kerberos 인증이 있는 클러스터의 알려진 문제

    EMR 릴리스 5.20.0 이상에서 여러 마스터 노드 및 Kerberos 인증으로 클러스터를 실행하는 경우 클러스터가 일정 기간 실행된 후 축소 또는 단계 제출과 같은 클러스터 작업에 문제가 발생할 수 있습니다. 기간은 정의한 Kerberos 티켓 유효 기간에 따라 다릅니다. 축소 문제는 제출한 자동 축소 요청과 명시적 축소 요청 모두에 영향을 미칩니다. 추가 클러스터 작업도 영향을 받을 수 있습니다.

    해결 방법:

    • 여러 마스터 노드가 있는 EMR 클러스터의 리드 마스터 노드에 대한hadoop 사용자로 SSH를 사용합니다.

    • Kerberoshadoop.

      kinit -kt <keytab_file> <principal>

      일반적으로 keytab 파일은 에 있으며 주 파일은 다음과 같은 형식입니다hadoop/<hostname>@<REALM>./etc/hadoop.keytab

    참고

    이 해결 방법은 Kerberos 티켓이 유효한 기간 동안 유효합니다. 이 기간은 기본적으로 10시간이지만 Kerberos 설정에서 구성할 수 있습니다. Kerberos 티켓이 만료되면 위 명령을 다시 실행해야 합니다.

릴리즈 5.30.0

다음 릴리스 노트에는 Amazon EMR 릴리스 버전 5.30.0에 대한 정보가 포함되어 있습니다. 변경 사항은 5.29.0에 관련됩니다.

Initial release date: 2020년 5월 13일

최종 업데이트 날짜: 2020년 6월 25일

업그레이드
  • AWS SDK for Java가 버전 1.11.759로 업그레이드됨

  • Amazon SageMaker Spark SDK 1.3.0

  • EMR 레코드 서버가 버전 1.6.0으로 업그레이드됨

  • Flink가 버전 1.10.0으로 업그레이드됨

  • Ganglia가 버전 3.7.2로 업그레이드됨

  • HBase가 버전 1.4.13으로 업그레이드됨

  • Hudi가 버전 0.5.2-incubating으로 업그레이드됨

  • Hue가 버전 4.6.0으로 업그레이드됨

  • 1.1.0 JupyterHub

  • Livy가 버전 0.7.0-incubating으로 업그레이드됨

  • Oozie가 버전 5.2.0으로 업그레이드됨

  • Presto가 버전 0.232로 업그레이드됨

  • Spark가 버전 2.4.5로 업그레이드됨

  • 업그레이드된 커넥터 및 드라이버: 아마존 Glue 커넥터 1.12.0, Amazon Kinesis 커넥터 3.5.0, EMR DynamoDB 커넥터 4.14.0

새로운 기능
  • EMR Notebooks — 5.30.0을 사용하여 만든 EMR 클러스터와 함께 사용하면 EMR 노트북 커널이 클러스터에서 실행됩니다. 이로써 노트북 성능이 향상되며, 커널을 설치하고 사용자 지정할 수 있습니다. 클러스터 마스터 노드에 Python 라이브러리를 설치할 수도 있습니다. 자세한 내용은 EMR 관리 안내서의 커널 및 라이브러리 설치 및 사용을 참조하십시오.

  • 관리형 조정 — Amazon EMR 버전 5.30.0 이상에서는 EMR 관리형 조정을 활성화하여 워크로드에 따라 클러스터의 인스턴스 또는 단위 수를 자동으로 늘리거나 줄일 수 있습니다. EMR은 클러스터 지표를 지속적으로 평가하여 비용과 속도 측면에서 클러스터를 최적화하는 조정 결정을 내립니다. 자세한 내용은 Amazon EMR 관리 안내서의 클러스터 리소스 규모 조정을 참조하십시오.

  • Amazon S3에 저장된 로그 파일 암호화 — Amazon EMR 버전 5.30.0 이상에서는AWS KMS 고객 관리 키를 사용하여 Amazon S3에 저장된 로그 파일을 암호화할 수 있습니다. 자세한 내용은 Amazon EMR 관리 안내서의 Amazon S3에 저장된 로그 파일 암호화를 참조하십시오.

  • Amazon Linux 2. 새 사용자 지정 AMI (아마존 머신 이미지) 는 아마존 리눅스 2 AMI를 기반으로 해야 합니다. 자세한 내용은 사용자 지정 AMI 사용을 참조하십시오.

  • Presto Graceful auto Scale — 5.30.0을 사용하는 EMR 클러스터에는 노드가 사용 중지되기 전에 Presto 작업이 실행을 완료할 수 있는 시간을 제공하는 Auto Scaling 제한 시간을 설정할 수 있습니다. 자세한 내용은 프레스토 자동 스케일링과 함께 그레이스풀 디커미션 사용하기을 참조하세요.

  • EMR 5.12.1. 더 빠른 클러스터 프로비저닝, 더 정확한 스팟 할당, 스팟 인스턴스 중단 감소를 제공합니다. 기본이 아닌 EMR 서비스 역할을 업데이트해야 합니다. 인스턴스 플릿 구성을 참조하십시오.

  • sudo systemctl stop 및 sudo systemctl 시작 명령 — Amazon Linux 2 OS를 사용하는 EMR 버전 5.30.0 이상에서 EMR은sudo systemctl stopsudo systemctl start 명령을 사용하여 서비스를 다시 시작합니다. Amazon EMR. .

변경, 개선 및 해결된 문제
  • EMR 버전 5.30.0은 기본적으로 Ganglia를 설치하지 않습니다. 클러스터 생성 시 Ganglia를 설치하도록 명시적으로 선택할 수 있습니다.

  • Spark 성능 최적화

  • Presto 성능 최적화

  • Amazon EMR 5.30.0.

  • 프라이빗 서브넷의 서비스 액세스에 대한 기본 관리형 보안 그룹이 새 규칙으로 업데이트되었습니다. 서비스 액세스에 대한 사용자 지정 보안 그룹을 사용하는 경우, 기본 관리형 보안 그룹과 동일한 규칙을 포함시켜야 합니다. 자세한 내용은 서비스 액세스를 위한 Amazon EMR 관리형 보안 그룹 (프라이빗 서브넷) 을 참조하십시오. Amazon EMR에 사용자 지정 서비스 역할을 사용하는 경우 EMR에서 보안 그룹이 올바르게 생성되었는지 검증할 수ec2:describeSecurityGroups 있도록 권한을 부여해야 합니다. EMR_DefaultRole을 사용하는 경우 이 권한은 이미 기본 관리형 정책에 포함되어 있습니다.

알려진 문제
  • 이전 AL2의 “최대 열린 파일 수” 제한을 낮춥니다 [최신 릴리스에서 수정됨]. 아마존 EMR 릴리스: emr-5.30.x, emr-5.31.0, emr-5.32.0, emr-6.0.0, emr-6.1.0 및 emr-6.2.0은 이전 버전의 Amazon Linux 2 (AL2) 를 기반으로 하며, Amazon EMR 클러스터를 기본 AMI로 생성할 때 “열린 파일 수 제한 수”에 대한 ulimit 설정이 더 낮습니다. Amazon EMR 릴리스 5.30.1, 5.30.2, 5.31.1, 5.32.1, 6.0.1, 6.1.1, 6.2.1, 5.33.0, 6.3.0 이상에는 더 높은 “열린 파일 수” 설정이 포함된 영구 수정 사항이 포함되어 있습니다. 열린 파일 제한이 더 낮은 릴리스는 Spark 작업을 제출할 때 “열린 파일이 너무 많습니다.” 오류를 발생시킵니다. 영향을 받는 릴리스의 Amazon EMR 기본 AMI에는 “최대 열린 파일 수”에 대한 기본 ulimit 설정이 4096으로 지정되어 있으며, 이는 최신 Amazon Linux 2 AMI의 파일 제한인 6536개보다 낮습니다. “최대 열린 파일 수”의 ulimit 하한값을 설정하면 Spark 드라이버와 실행기가 4096개 이상의 파일을 열려고 할 때 Spark 작업이 실패합니다. 이 문제를 해결하기 위해 Amazon EMR에는 클러스터 생성 시 ulimit 설정을 조정하는 부트스트랩 작업 (BA) 스크립트가 있습니다.

    이 문제에 대한 영구적인 수정 사항이 없는 이전 Amazon EMR 버전을 사용하는 경우 다음 해결 방법을 통해 인스턴스 컨트롤러 ulimit를 최대 65536개 파일로 명시적으로 설정할 수 있습니다.

    명령줄에서 ulimit를 명시적으로 설정
    1. /etc/systemd/system/instance-controller.service편집하여 [서비스] 섹션에 다음 매개 변수를 추가합니다.

      LimitNOFILE=65536

      LimitNPROC=65536

    2. 재시작 InstanceController

      $ sudo systemctl daemon-reload

      $ sudo systemctl restart instance-controller

    부트스트랩 작업 (BA) 을 사용하여 제한 설정

    또한 부트스트랩 작업 (BA) 스크립트를 사용하여 클러스터 생성 시 인스턴스 컨트롤러 ulimit를 65536개 파일로 구성할 수 있습니다.

    #!/bin/bash for user in hadoop spark hive; do sudo tee /etc/security/limits.d/$user.conf << EOF $user - nofile 65536 $user - nproc 65536 EOF done for proc in instancecontroller logpusher; do sudo mkdir -p /etc/systemd/system/$proc.service.d/ sudo tee /etc/systemd/system/$proc.service.d/override.conf << EOF [Service] LimitNOFILE=65536 LimitNPROC=65536 EOF pid=$(pgrep -f aws157.$proc.Main) sudo prlimit --pid $pid --nofile=65535:65535 --nproc=65535:65535 done sudo systemctl daemon-reload
  • 관리형 스케일링

    Presto를 설치하지 않은 5.30.0 및 5.30.1 클러스터에서 관리형 조정 작업을 수행하면 애플리케이션 장애가 발생하거나 균일한 인스턴스 그룹 또는 인스턴스 플릿이 해당ARRESTED 상태로 유지될 수 있습니다. 특히 축소 작업 후 확장 작업이 빠르게 이어지는 경우에는 더욱 그렇습니다.

    이 문제를 해결하려면 작업에 Presto가 필요하지 않더라도 클러스터를 만들 때 설치할 응용 프로그램으로 Presto를 선택하십시오.

  • 여러 마스터 노드 및 Kerberos 인증이 있는 클러스터의 알려진 문제

    EMR 릴리스 5.20.0 이상에서 여러 마스터 노드 및 Kerberos 인증으로 클러스터를 실행하는 경우 클러스터가 일정 기간 실행된 후 축소 또는 단계 제출과 같은 클러스터 작업에 문제가 발생할 수 있습니다. 기간은 정의한 Kerberos 티켓 유효 기간에 따라 다릅니다. 축소 문제는 제출한 자동 축소 요청과 명시적 축소 요청 모두에 영향을 미칩니다. 추가 클러스터 작업도 영향을 받을 수 있습니다.

    해결 방법:

    • 여러 마스터 노드가 있는 EMR 클러스터의 리드 마스터 노드에 대한hadoop 사용자로 SSH를 사용합니다.

    • Kerberoshadoop.

      kinit -kt <keytab_file> <principal>

      일반적으로 keytab 파일은 에 있으며 주 파일은 다음과 같은 형식입니다hadoop/<hostname>@<REALM>./etc/hadoop.keytab

    참고

    이 해결 방법은 Kerberos 티켓이 유효한 기간 동안 유효합니다. 이 기간은 기본적으로 10시간이지만 Kerberos 설정에서 구성할 수 있습니다. Kerberos 티켓이 만료되면 위 명령을 다시 실행해야 합니다.

  • Hue 4.6.0의 기본 데이터베이스 엔진은 SQLite이며, 외부 데이터베이스에서 Hue를 사용하려고 할 때 문제가 발생합니다. 이 문제를 해결하려면hue-ini 구성 분류를 로 설정하십시오enginemysql. Amazon EMR 5.30.1 Amazon EMR.

릴리즈 5.29.0

다음 릴리스 노트에는 Amazon EMR 릴리스 버전 5.29.0에 대한 정보가 포함되어 있습니다. 변경 사항은 5.28.1에 관련됩니다.

Initial release date: 2020 1 17

업그레이드
  • 1.11.682AWS SDK for Java 버전으로 업그레이드되었습니다

  • Hive가 버전 2.3.6으로 업그레이드됨

  • Flink가 버전 1.9.1로 업그레이드됨

  • EmrFS가 버전 2.38.0으로 업그레이드됨

  • EMR DynamoDB Connector가 버전 4.13.0으로 업그레이드됨

변경, 개선 및 해결된 문제
  • Spark

    • Spark 성능 최적화

  • EMRFS

    • 일관된 보기를 위해 관리 안내서에서 emrfs-site.xml 기본 설정이 업데이트됩니다.

알려진 문제
  • 여러 마스터 노드 및 Kerberos 인증이 있는 클러스터의 알려진 문제

    EMR 릴리스 5.20.0 이상에서 여러 마스터 노드 및 Kerberos 인증으로 클러스터를 실행하는 경우 클러스터가 일정 기간 실행된 후 축소 또는 단계 제출과 같은 클러스터 작업에 문제가 발생할 수 있습니다. 기간은 정의한 Kerberos 티켓 유효 기간에 따라 다릅니다. 축소 문제는 제출한 자동 축소 요청과 명시적 축소 요청 모두에 영향을 미칩니다. 추가 클러스터 작업도 영향을 받을 수 있습니다.

    해결 방법:

    • 여러 마스터 노드가 있는 EMR 클러스터의 리드 마스터 노드에 대한hadoop 사용자로 SSH를 사용합니다.

    • Kerberoshadoop.

      kinit -kt <keytab_file> <principal>

      일반적으로 keytab 파일은 에 있으며 주 파일은 다음과 같은 형식입니다hadoop/<hostname>@<REALM>./etc/hadoop.keytab

    참고

    이 해결 방법은 Kerberos 티켓이 유효한 기간 동안 유효합니다. 이 기간은 기본적으로 10시간이지만 Kerberos 설정에서 구성할 수 있습니다. Kerberos 티켓이 만료되면 위 명령을 다시 실행해야 합니다.

릴리스 5.28.1

다음 릴리스 노트에는 Amazon EMR 릴리스 버전 5.28.1에 대한 정보가 포함되어 있습니다. 변경 사항은 5.28.0에 관련됩니다.

Initial release date: 2020 1 10

변경, 개선 및 해결된 문제
  • Spark

    • Spark 호환성 문제를 수정했습니다.

  • CloudWatch 측정항목

    • 여러 마스터 노드가 있는 EMR 클러스터에 Amazon CloudWatch 메트릭스를 게시하는 문제를 수정했습니다.

  • 로그 메시지 비활성화

    • false 로그 메시지 "이전 버전(<4.5.8)의 Apache http 클라이언트를 사용..."을 비활성화했습니다.

알려진 문제
  • 여러 마스터 노드 및 Kerberos 인증이 있는 클러스터의 알려진 문제

    EMR 릴리스 5.20.0 이상에서 여러 마스터 노드 및 Kerberos 인증으로 클러스터를 실행하는 경우 클러스터가 일정 기간 실행된 후 축소 또는 단계 제출과 같은 클러스터 작업에 문제가 발생할 수 있습니다. 기간은 정의한 Kerberos 티켓 유효 기간에 따라 다릅니다. 축소 문제는 제출한 자동 축소 요청과 명시적 축소 요청 모두에 영향을 미칩니다. 추가 클러스터 작업도 영향을 받을 수 있습니다.

    해결 방법:

    • 여러 마스터 노드가 있는 EMR 클러스터의 리드 마스터 노드에 대한hadoop 사용자로 SSH를 사용합니다.

    • Kerberoshadoop.

      kinit -kt <keytab_file> <principal>

      일반적으로 keytab 파일은 에 있으며 주 파일은 다음과 같은 형식입니다hadoop/<hostname>@<REALM>./etc/hadoop.keytab

    참고

    이 해결 방법은 Kerberos 티켓이 유효한 기간 동안 유효합니다. 이 기간은 기본적으로 10시간이지만 Kerberos 설정에서 구성할 수 있습니다. Kerberos 티켓이 만료되면 위 명령을 다시 실행해야 합니다.

릴리스 5.28.0

다음 릴리스 노트에는 Amazon EMR 릴리스 버전 5.28.0에 대한 정보가 포함되어 있습니다. 변경 사항은 5.27.0에 관련됩니다.

Initial release date: 2019 11 12 12 12 12 12 12 12 12 12

업그레이드
  • Flink가 버전 1.9.0으로 업그레이드됨

  • Hive가 버전 2.3.6으로 업그레이드됨

  • MXNet이 1.5.1로 업그레이드됨

  • Phoenix가 버전 4.14.3으로 업그레이드됨

  • Presto가 버전 0.227로 업그레이드됨

  • Zeppelin이 버전 0.8.2로 업그레이드됨

새로운 기능
  • 이제 클러스터를 생성할 때 Amazon EMR에서 아파치 Hudi를 설치할 수 있습니다. 자세한 내용은 후디을 참조하세요.

  • (2019년 11월 25일) 이제 클러스터 사용률을 개선하고 비용을 절감하기 위해 여러 단계를 병렬로 실행하도록 선택할 수 있습니다. 대기 중인 단계와 실행 중인 단계를 모두 취소할 수도 있습니다. 자세한 내용은 AWS CLI 및 콘솔을 사용하여 단계 작업을 참조하십시오.

  • (2019년 12월 3일) 이제 에서 EMR 클러스터를 생성하고 실행할 수AWS Outposts 있습니다. AWS Outposts.AWS AWS클라우드에서.AWS OutpostsAWS EMRAWS Outposts.

  • (2020년 3월 11일) Amazon EMR 버전 5.28.0부터AWS 로컬 영역을 지원하는AWS 지역의 논리적 확장으로 Local Zones 서브넷에서 Amazon EMR 클러스터를 생성하고 실행할 수 있습니다. 로컬 영역을 사용하면 Amazon EMR 기능과 일부 서비스 (예: 컴퓨팅 및 스토리지AWS 서비스) 를 사용자와 더 가까운 위치에 배치할 수 있으므로 로컬에서 실행되는 애플리케이션에 대한 액세스 지연 시간이 매우 짧습니다. 사용 가능한 Local Zones 목록은 AWSLocal Zones 참조하십시오. AWSLocal Zones

    Local Zones 현재 Amazon EMR Notebooks 노트북을 지원하지 않으며 인터페이스 VPC 엔드포인트 (AWS PrivateLink) 를 사용하여 Amazon EMR에 직접 연결하는 것을 지원하지 않습니다.

변경, 개선 및 해결된 문제
  • 고가용성 클러스터에 대해 확장된 애플리케이션 지원

  • Spark

    • 성능 최적화

  • Hive

    • 성능 최적화

  • Presto

    • 성능 최적화

알려진 문제
  • 여러 마스터 노드 및 Kerberos 인증이 있는 클러스터의 알려진 문제

    EMR 릴리스 5.20.0 이상에서 여러 마스터 노드 및 Kerberos 인증으로 클러스터를 실행하는 경우 클러스터가 일정 기간 실행된 후 축소 또는 단계 제출과 같은 클러스터 작업에 문제가 발생할 수 있습니다. 기간은 정의한 Kerberos 티켓 유효 기간에 따라 다릅니다. 축소 문제는 제출한 자동 축소 요청과 명시적 축소 요청 모두에 영향을 미칩니다. 추가 클러스터 작업도 영향을 받을 수 있습니다.

    해결 방법:

    • 여러 마스터 노드가 있는 EMR 클러스터의 리드 마스터 노드에 대한hadoop 사용자로 SSH를 사용합니다.

    • Kerberoshadoop.

      kinit -kt <keytab_file> <principal>

      일반적으로 keytab 파일은 에 있으며 주 파일은 다음과 같은 형식입니다hadoop/<hostname>@<REALM>./etc/hadoop.keytab

    참고

    이 해결 방법은 Kerberos 티켓이 유효한 기간 동안 유효합니다. 이 기간은 기본적으로 10시간이지만 Kerberos 설정에서 구성할 수 있습니다. Kerberos 티켓이 만료되면 위 명령을 다시 실행해야 합니다.

릴리스 5.27.0

다음 릴리스 노트에는 Amazon EMR 릴리스 버전 5.27.0에 대한 정보가 포함되어 있습니다. 변경 사항은 5.26.0에 관련됩니다.

Initial release date: 2019 9 23

업그레이드
  • AWS SDK for Java 1.11.615

  • Flink 1.8.1

  • JupyterHub 1.0.0

  • Spark 2.4.4

  • TensorFlow 1.14.0

  • 커넥터 및 드라이버:

    • DynamoDB 커넥터 4.12.0

새로운 기능
  • (2019년 10월 24일) EMR 노트북의 다음과 같은 새로운 기능은 모든 Amazon EMR 릴리스에서 사용할 수 있습니다.

    • 이제 Git 리포지토리를 EMR 노트북과 연결하여 버전 제어 환경에서 노트북을 저장할 수 있습니다. 원격 Git 리포지토리를 통해 동료와 코드를 공유할 수 있고 기존 Jupyter 노트북을 재사용할 수 있습니다. Amazon EMR Notebooks.

    • 이제 EMR 노트북에서 nbdime 유틸리티를 사용하여 노트북 비교 및 병합을 간소화할 수 있습니다.

    • EMR 노트북이 이제 지원됩니다 JupyterLab. JupyterLab Jupyter 노트북과 완벽하게 호환되는 웹 기반 대화형 개발 환경입니다. 이제 노트북을 Jupyter 노트북 편집기 JupyterLab 또는 Jupyter 노트북 편집기에서 열도록 선택할 수 있습니다.

  • (2019년 10월 30일) Amazon EMR 버전 5.25.0 이상에서는 콘솔의 클러스터 요약 페이지 또는 애플리케이션 기록 탭에서 Spark 기록 서버 UI에 연결할 수 있습니다. SSH 연결을 통해 웹 프록시를 설정하는 대신, Spark 기록 서버 UI에 액세스하여 애플리케이션 지표를 보고 활성 클러스터 및 종료된 클러스터에 대한 관련 로그 파일에 액세스할 수 있습니다. 자세한 내용은 Amazon EMR Management Guide의 영구 애플리케이션 사용자 인터페이스에 대한 클러스터 외부 액세스를 참조하십시오.

변경, 개선 및 해결된 문제
알려진 문제
  • 여러 마스터 노드 및 Kerberos 인증이 있는 클러스터의 알려진 문제

    EMR 릴리스 5.20.0 이상에서 여러 마스터 노드 및 Kerberos 인증으로 클러스터를 실행하는 경우 클러스터가 일정 기간 실행된 후 축소 또는 단계 제출과 같은 클러스터 작업에 문제가 발생할 수 있습니다. 기간은 정의한 Kerberos 티켓 유효 기간에 따라 다릅니다. 축소 문제는 제출한 자동 축소 요청과 명시적 축소 요청 모두에 영향을 미칩니다. 추가 클러스터 작업도 영향을 받을 수 있습니다.

    해결 방법:

    • 여러 마스터 노드가 있는 EMR 클러스터의 리드 마스터 노드에 대한hadoop 사용자로 SSH를 사용합니다.

    • Kerberoshadoop.

      kinit -kt <keytab_file> <principal>

      일반적으로 keytab 파일은 에 있으며 주 파일은 다음과 같은 형식입니다hadoop/<hostname>@<REALM>./etc/hadoop.keytab

    참고

    이 해결 방법은 Kerberos 티켓이 유효한 기간 동안 유효합니다. 이 기간은 기본적으로 10시간이지만 Kerberos 설정에서 구성할 수 있습니다. Kerberos 티켓이 만료되면 위 명령을 다시 실행해야 합니다.

Release 5.26.0

다음 릴리스 노트에는 Amazon EMR 릴리스 버전 5.26.0에 대한 정보가 포함되어 있습니다. 변경 사항은 5.25.0에 관련됩니다.

Initial release date: 2019 8 8

최종 업데이트 날짜: 2019 8 19

업그레이드
  • AWS SDK for Java 1.11.595

  • HBase 1.4.10

  • Phoenix 4.14.2

  • 커넥터 및 드라이버:

    • DynamoDB 커넥터 4.11.0

    • MariaDB 커넥터 2.4.2

    • Amazon Redshift JDBC 드라이버 1.2.32.1056

새로운 기능
  • (베타) Amazon EMR 5.26.0을 사용하면 Lake Formation 포메이션과 통합되는 클러스터를 시작할 수 있습니다. 이 통합은 Glue Data Catalog의 데이터베이스와 테이블에 대한 세분화된 열 수준 액세스를 제공합니다.AWS 또한 엔터프라이즈 자격 증명 시스템에서 EMR 노트북 또는 Apache Zeppelin에 연동된 Single Sign-On을 사용할 수도 있습니다. 자세한 내용은 Amazon EMR과AWS Lake Formation (베타) 통합을 참조하십시오.

  • (2019년 8월 19일) 이제 보안 그룹을 지원하는 모든 Amazon EMR 릴리스에서 Amazon EMR 블록 퍼블릭 액세스를 사용할 수 있습니다. 퍼블릭 액세스 차단은 각 AWS 리전에 적용되는 계정 차원의 설정입니다. 포트가 예외로 지정되지 않은 한, 퍼블릭 액세스 차단은 클러스터와 연결된 보안 그룹에 포트의 IPv4 0.0.0.0/0 또는 IPv6 ::/0(퍼블릭 액세스)에서 인바운드 트래픽을 허용하는 규칙이 있을 때 클러스터가 시작되지 않도록 합니다. 포트 22는 기본적으로 예외로 설정됩니다. Amazon EMR.

변경, 개선 및 해결된 문제
  • EMR 노트북

    • EMR 5.26.0 이상에서 EMR Notebooks 노트북은 기본 Python 라이브러리 외에도 노트북 범위의 Python 라이브러리를 지원합니다. 클러스터를 다시 생성하거나 노트북을 클러스터에 다시 연결할 필요 없이 노트북 편집기 내에서 노트북 범위 라이브러리를 설치할 수 있습니다. 노트북 범위의 라이브러리는 Python 가상 환경에서 생성되므로 현재 노트북 세션에만 적용됩니다. 이를 통해 노트북 종속성을 분리할 수 있습니다. 자세한 내용은 Amazon EMR 관리 안내서의 노트북 범위 라이브러리 사용을 참조하십시오.

  • EMRFS

    • fs.s3.consistent.metadata.etag.verification.enabledtrue로 설정하여 ETag 확인 기능(베타)을 활성화할 수 있습니다. 이 기능을 통해 EMRFS는 Amazon S3 ETag를 사용하여 읽고 있는 객체가 사용 가능한 최신 버전인지 확인합니다. 이 기능은 동일한 이름을 유지하면서 Amazon S3에 있는 파일을 덮어쓰는 read-after-update 사용 사례에 유용합니다. 이 ETag 확인 기능은 현재 S3 Select에서 작동하지 않습니다. 자세한 내용은 일관된 보기 구성 단원을 참조하십시오.

  • Spark

    • 동적 파티션 잘라내기, INTERSECT에 앞선 DISTINCT, JOIN-DISINCT 쿼리에 대한 SQL 계획 통계 추론의 개선, 스칼라 하위 쿼리 평면화, 최적화된 조인 재정렬 및 블룸 필터 조인과 같은 최적화가 이제 기본적으로 설정됩니다. 자세한 내용은 Spark 성능 최적화를 참조하십시오.

    • 정렬 병합 조인의 전체 스테이지 코드 생성 기능이 개선되었습니다.

    • 쿼리 조각 및 하위 쿼리 재사용이 개선되었습니다.

    • Spark 시작 시 실행기를 사전 할당하도록 개선되었습니다.

    • 조인의 작은 쪽에 브로드캐스트 힌트가 포함되어 있으면 블룸 필터 조인이 더 이상 적용되지 않습니다.

  • Tez의 Hive 실행 시간 비교

    • Tez 관련 문제를 해결했습니다. Tez UI는 이제 여러 마스터 노드가 있는 EMR 클러스터에서 작동합니다.

알려진 문제
  • 정렬 병합 조인에 대한 향상된 전체 스테이지 코드 생성 기능을 사용하면 메모리 압력을 높일 수 있습니다. 이 최적화는 성능을 향상시키지만 spark.yarn.executor.memoryOverheadFactor가 충분한 메모리를 제공하도록 조정되지 않은 경우 작업 재시도 또는 실패를 초래할 수 있습니다. 이 기능을 비활성화하려면 spark.sql.sortMergeJoinExec.extendedCodegen.enabled를 false로 설정하십시오.

  • 여러 마스터 노드 및 Kerberos 인증이 있는 클러스터의 알려진 문제

    EMR 릴리스 5.20.0 이상에서 여러 마스터 노드 및 Kerberos 인증으로 클러스터를 실행하는 경우 클러스터가 일정 기간 실행된 후 축소 또는 단계 제출과 같은 클러스터 작업에 문제가 발생할 수 있습니다. 기간은 정의한 Kerberos 티켓 유효 기간에 따라 다릅니다. 축소 문제는 제출한 자동 축소 요청과 명시적 축소 요청 모두에 영향을 미칩니다. 추가 클러스터 작업도 영향을 받을 수 있습니다.

    해결 방법:

    • 여러 마스터 노드가 있는 EMR 클러스터의 리드 마스터 노드에 대한hadoop 사용자로 SSH를 사용합니다.

    • Kerberoshadoop.

      kinit -kt <keytab_file> <principal>

      일반적으로 keytab 파일은 에 있으며 주 파일은 다음과 같은 형식입니다hadoop/<hostname>@<REALM>./etc/hadoop.keytab

    참고

    이 해결 방법은 Kerberos 티켓이 유효한 기간 동안 유효합니다. 이 기간은 기본적으로 10시간이지만 Kerberos 설정에서 구성할 수 있습니다. Kerberos 티켓이 만료되면 위 명령을 다시 실행해야 합니다.

릴리스 5.25.0

다음 릴리스 노트에는 Amazon EMR 릴리스 버전 5.25.0에 대한 정보가 포함되어 있습니다. 변경 사항은 5.24.1에 관련됩니다.

Initial release date: 2019 7 17

최종 업데이트 날짜: 2019 10 30

아마존 EMR 5.25.0

업그레이드
  • AWS SDK for Java 1.11.566

  • Hive 2.3.5

  • Presto 0.220

  • Spark 2.4.3

  • TensorFlow 1.13.1

  • Tez 0.9.2

  • Zookeeper 3.4.14

새로운 기능
  • (2019년 10월 30일) Amazon EMR 버전 5.25.0부터 콘솔의 클러스터 요약 페이지 또는 애플리케이션 기록 탭에서 Spark 기록 서버 UI에 연결할 수 있습니다. SSH 연결을 통해 웹 프록시를 설정하는 대신, Spark 기록 서버 UI에 액세스하여 애플리케이션 지표를 보고 활성 클러스터 및 종료된 클러스터에 대한 관련 로그 파일에 액세스할 수 있습니다. 자세한 내용은 Amazon EMR Management Guide의 영구 애플리케이션 사용자 인터페이스에 대한 클러스터 외부 액세스를 참조하십시오.

변경, 개선 및 해결된 문제
  • Spark

    • Bloom 필터로 입력을 사전 필터링하여 일부 조인의 성능을 개선했습니다. 이 최적화는 기본적으로 비활성화되어 있으며, Spark 구성 파라미터 spark.sql.bloomFilterJoin.enabledtrue로 설정하여 활성화할 수 있습니다.

    • 문자열 형식 열을 기준으로 그룹화하는 성능을 개선했습니다.

    • HBase를 설치하지 않고 클러스터에 대한 R4 인스턴스 유형의 핵심 구성 및 기본 Spark 실행기 메모리를 개선했습니다.

    • 잘린 테이블이 조인의 왼쪽에 있어야 하는 이전의 동적 파티션 잘라내기 기능에 대한 문제를 해결했습니다.

    • 별칭과 관련된 추가 사례를 적용하기 위해 INTERSECT 이전 DISTINCT 최적화를 개선했습니다.

    • DISTINCT 쿼리 이전 JOIN에 대한 SQL 계획 통계 추론을 개선했습니다. 이 개선 사항은 기본적으로 비활성화되어 있으며, Spark 구성 파라미터 spark.sql.statsImprovements.enabledtrue로 설정하여 활성화할 수 있습니다. 이 최적화는 Intersect 이전 Distinct 기능에 필요하며 spark.sql.optimizer.distinctBeforeIntersect.enabledtrue로 설정할 경우 자동으로 활성화됩니다.

    • 테이블 크기 및 필터에 따라 조인 순서를 최적화했습니다. 이 최적화는 기본적으로 비활성화되어 있으며, Spark 구성 파라미터 spark.sql.optimizer.sizeBasedJoinReorder.enabledtrue로 설정하여 활성화할 수 있습니다.

    자세한 내용은 Spark 성능 최적화를 참조하십시오.

  • EMRFS

    • 이제 EMRFS 설정 fs.s3.buckets.create.enabled가 기본적으로 비활성화됩니다. 테스트 결과 이 설정을 비활성화하면 성능이 향상되고 의도치 않은 S3 버킷 생성이 방지된다는 사실을 확인했습니다. 애플리케이션이 이 기능을 사용하는 경우 emrfs-site 구성 분류에서 속성 fs.s3.buckets.create.enabledtrue로 설정하여 활성화할 수 있습니다. 자세한 내용은 클러스터를 생성할 때 구성 제공 단원을 참조하십시오.

  • 보안 구성의 로컬 디스크 암호화 및 S3 암호화 개선(2019년 8월 5일)

    • Amazon S3 암호화 설정을 보안 구성 설정의 로컬 디스크 암호화 설정과 분리했습니다.

    • EBS 암호화를 활성화하는 옵션이 5.24.0 이상 릴리스에 추가되었습니다. 이 옵션을 선택하면 스토리지 볼륨뿐만 아니라 루트 디바이스 볼륨도 암호화됩니다. 이전 버전에서는 사용자 지정 AMI를 사용하여 루트 디바이스 볼륨을 암호화해야 했습니다.

    • 자세한 내용은 Amazon EMR 관리 안내서의 암호화 옵션을 참조하십시오.

알려진 문제
  • 여러 마스터 노드 및 Kerberos 인증이 있는 클러스터의 알려진 문제

    EMR 릴리스 5.20.0 이상에서 여러 마스터 노드 및 Kerberos 인증으로 클러스터를 실행하는 경우 클러스터가 일정 기간 실행된 후 축소 또는 단계 제출과 같은 클러스터 작업에 문제가 발생할 수 있습니다. 기간은 정의한 Kerberos 티켓 유효 기간에 따라 다릅니다. 축소 문제는 제출한 자동 축소 요청과 명시적 축소 요청 모두에 영향을 미칩니다. 추가 클러스터 작업도 영향을 받을 수 있습니다.

    해결 방법:

    • 여러 마스터 노드가 있는 EMR 클러스터의 리드 마스터 노드에 대한hadoop 사용자로 SSH를 사용합니다.

    • Kerberoshadoop.

      kinit -kt <keytab_file> <principal>

      일반적으로 keytab 파일은 에 있으며 주 파일은 다음과 같은 형식입니다hadoop/<hostname>@<REALM>./etc/hadoop.keytab

    참고

    이 해결 방법은 Kerberos 티켓이 유효한 기간 동안 유효합니다. 이 기간은 기본적으로 10시간이지만 Kerberos 설정에서 구성할 수 있습니다. Kerberos 티켓이 만료되면 위 명령을 다시 실행해야 합니다.

릴리스 5.24.1

다음 릴리스 노트에는 Amazon EMR 릴리스 버전 5.24.1에 대한 정보가 포함되어 있습니다. 변경 사항은 5.24.0에 관련됩니다.

Initial release date: 2018년 26월 6일

변경, 개선 및 해결된 문제
  • EMR용 기본 Amazon Linux AMI가 TCP SACK 서비스 거부 문제 (AWS-2019-005) 를 비롯한 중요한 Linux 커널 보안 업데이트를 포함하도록 업데이트했습니다.

알려진 문제
  • 여러 마스터 노드 및 Kerberos 인증이 있는 클러스터의 알려진 문제

    EMR 릴리스 5.20.0 이상에서 여러 마스터 노드 및 Kerberos 인증으로 클러스터를 실행하는 경우 클러스터가 일정 기간 실행된 후 축소 또는 단계 제출과 같은 클러스터 작업에 문제가 발생할 수 있습니다. 기간은 정의한 Kerberos 티켓 유효 기간에 따라 다릅니다. 축소 문제는 제출한 자동 축소 요청과 명시적 축소 요청 모두에 영향을 미칩니다. 추가 클러스터 작업도 영향을 받을 수 있습니다.

    해결 방법:

    • 여러 마스터 노드가 있는 EMR 클러스터의 리드 마스터 노드에 대한hadoop 사용자로 SSH를 사용합니다.

    • Kerberoshadoop.

      kinit -kt <keytab_file> <principal>

      일반적으로 keytab 파일은 에 있으며 주 파일은 다음과 같은 형식입니다hadoop/<hostname>@<REALM>./etc/hadoop.keytab

    참고

    이 해결 방법은 Kerberos 티켓이 유효한 기간 동안 유효합니다. 이 기간은 기본적으로 10시간이지만 Kerberos 설정에서 구성할 수 있습니다. Kerberos 티켓이 만료되면 위 명령을 다시 실행해야 합니다.

릴리스 5.24.0

다음 릴리스 노트에는 Amazon EMR 릴리스 버전 5.24.0에 대한 정보가 포함되어 있습니다. 변경 사항은 5.23.0에 관련됩니다.

Initial release date: 2019년 6월 11일

최종 업데이트 날짜: 2019년 8월 5일

업그레이드
  • Flink 1.8.0

  • Hue 4.4.0

  • JupyterHub 0.9.6

  • Livy 0.6.0

  • MxNet 1.4.0

  • Presto 0.219

  • Spark 2.4.2

  • AWS SDK for Java 1.11.546

  • 커넥터 및 드라이버:

    • DynamoDB 4.9.0

    • MariaDB 커넥터 2.4.1

    • Amazon Redshift JDBC 1.2.2.2.2.51

변경, 개선 및 해결된 문제
  • Spark

    • 파티션을 동적으로 삭제하는 최적화가 추가되었습니다. 최적화는 기본적으로 비활성화되어 있습니다. 활성화하려면 Spark 구성 파라미터 spark.sql.dynamicPartitionPruning.enabledtrue로 설정하십시오.

    • INTERSECT 쿼리의 성능을 개선했습니다. 이 최적화는 기본적으로 비활성화되어 있습니다. 활성화하려면 Spark 구성 파라미터 spark.sql.optimizer.distinctBeforeIntersect.enabledtrue로 설정하십시오.

    • 동일한 관계를 사용하는 집계로 스칼라 하위 쿼리를 평면화하는 최적화가 추가되었습니다. 최적화는 기본적으로 비활성화되어 있습니다. 활성화하려면 Spark 구성 파라미터 spark.sql.optimizer.flattenScalarSubqueriesWithAggregates.enabledtrue로 설정하십시오.

    • 전체 스테이지 코드 생성이 개선되었습니다.

    자세한 내용은 Spark 성능 최적화를 참조하십시오.

  • 보안 구성의 로컬 디스크 암호화 및 S3 암호화 개선(2019년 8월 5일)

    • Amazon S3 암호화 설정을 보안 구성 설정의 로컬 디스크 암호화 설정과 분리했습니다.

    • EBS 암호화를 활성화하는 옵션이 추가되었습니다. 이 옵션을 선택하면 스토리지 볼륨뿐만 아니라 루트 디바이스 볼륨도 암호화됩니다. 이전 버전에서는 사용자 지정 AMI를 사용하여 루트 디바이스 볼륨을 암호화해야 했습니다.

    • 자세한 내용은 Amazon EMR 관리 안내서의 암호화 옵션을 참조하십시오.

알려진 문제
  • 여러 마스터 노드 및 Kerberos 인증이 있는 클러스터의 알려진 문제

    EMR 릴리스 5.20.0 이상에서 여러 마스터 노드 및 Kerberos 인증으로 클러스터를 실행하는 경우 클러스터가 일정 기간 실행된 후 축소 또는 단계 제출과 같은 클러스터 작업에 문제가 발생할 수 있습니다. 기간은 정의한 Kerberos 티켓 유효 기간에 따라 다릅니다. 축소 문제는 제출한 자동 축소 요청과 명시적 축소 요청 모두에 영향을 미칩니다. 추가 클러스터 작업도 영향을 받을 수 있습니다.

    해결 방법:

    • 여러 마스터 노드가 있는 EMR 클러스터의 리드 마스터 노드에 대한hadoop 사용자로 SSH를 사용합니다.

    • Kerberoshadoop.

      kinit -kt <keytab_file> <principal>

      일반적으로 keytab 파일은 에 있으며 주 파일은 다음과 같은 형식입니다hadoop/<hostname>@<REALM>./etc/hadoop.keytab

    참고

    이 해결 방법은 Kerberos 티켓이 유효한 기간 동안 유효합니다. 이 기간은 기본적으로 10시간이지만 Kerberos 설정에서 구성할 수 있습니다. Kerberos 티켓이 만료되면 위 명령을 다시 실행해야 합니다.

릴리스 5.23.0

다음 릴리스 노트에는 Amazon EMR 릴리스 버전 5.23.0에 대한 정보가 포함되어 있습니다. 변경 사항은 5.22.0에 관련됩니다.

Initial release date: 2019 4 1

최종 업데이트 날짜: 2019년 4월 30일

업그레이드
  • AWS SDK for Java 1.11.519

새로운 기능
  • (2019년 4월 30일) Amazon EMR 5.23.0 이상에서는 마스터 노드 3개가 포함된 클러스터를 시작하여 YARN 리소스 관리자, HDFS, Spark NameNode, Hive 및 Ganglia와 같은 애플리케이션의 고가용성을 지원할 수 있습니다. 이 기능을 사용하면 마스터 노드가 더 이상 잠재적 단일 장애 지점이 아닙니다. 마스터 노드 중 하나에 장애가 발생하면 Amazon EMR은 자동으로 대기 마스터 노드로 장애 조치하고 장애가 발생한 마스터 노드를 동일한 구성 및 부트스트랩 작업을 가진 새 노드로 교체합니다. 자세한 내용은 마스터 노드 계획 및 구성을 참조하십시오.

알려진 문제
  • 테즈 UI (아마존 EMR 릴리스 버전 5.26.0에서 수정)

    Tez UI는 여러 마스터 노드를 포함하는 EMR 클러스터에서 작동하지 않습니다.

  • 색조 (아마존 EMR 릴리스 버전 5.24.0에서 수정)

    • Amazon EMR에서 실행되는 Hue는 Solr을 지원하지 않습니다. Amazon EMR 릴리스 버전 5.20.0부터 잘못된 구성 문제로 인해 Solr이 활성화되고 다음과 비슷한 무해한 오류 메시지가 표시됩니다.

      Solr server could not be contacted properly: HTTPConnectionPool('host=ip-xx-xx-xx-xx.ec2.internal', port=1978): Max retries exceeded with url: /solr/admin/info/system?user.name=hue&doAs=administrator&wt=json (Caused by NewConnectionError(': Failed to establish a new connection: [Errno 111] Connection refused',))

      Solr 오류 메시지를 표시하지 않으려면

      1. SSH를 사용하여 마스터 노드 명령줄을 연결합니다.

      2. 텍스트 편집기를 사용하여 hue.ini 파일을 엽니다. 예:

        sudo vim /etc/hue/conf/hue.ini

      3. appblacklist용어를 검색하고 라인을 다음과 같이 수정합니다.

        appblacklist = search
      4. 변경 내용을 저장하고 다음 예와 같이 Hue를 다시 시작합니다.

        sudo stop hue; sudo start hue
  • 여러 마스터 노드 및 Kerberos 인증이 있는 클러스터의 알려진 문제

    EMR 릴리스 5.20.0 이상에서 여러 마스터 노드 및 Kerberos 인증으로 클러스터를 실행하는 경우 클러스터가 일정 기간 실행된 후 축소 또는 단계 제출과 같은 클러스터 작업에 문제가 발생할 수 있습니다. 기간은 정의한 Kerberos 티켓 유효 기간에 따라 다릅니다. 축소 문제는 제출한 자동 축소 요청과 명시적 축소 요청 모두에 영향을 미칩니다. 추가 클러스터 작업도 영향을 받을 수 있습니다.

    해결 방법:

    • 여러 마스터 노드가 있는 EMR 클러스터의 리드 마스터 노드에 대한hadoop 사용자로 SSH를 사용합니다.

    • Kerberoshadoop.

      kinit -kt <keytab_file> <principal>

      일반적으로 keytab 파일은 에 있으며 주 파일은 다음과 같은 형식입니다hadoop/<hostname>@<REALM>./etc/hadoop.keytab

    참고

    이 해결 방법은 Kerberos 티켓이 유효한 기간 동안 유효합니다. 이 기간은 기본적으로 10시간이지만 Kerberos 설정에서 구성할 수 있습니다. Kerberos 티켓이 만료되면 위 명령을 다시 실행해야 합니다.

릴리스 5.22.0

다음 릴리스 노트에는 Amazon EMR 릴리스 버전 5.22.0에 대한 정보가 포함되어 있습니다. 변경 사항은 5.21.0에 관련됩니다.

중요

Amazon EMR 릴리스 버전 5.22.0부터 Amazon EMR은 Amazon S3에 대한 요청을 인증하는 데만AWS 서명 버전 4를 사용합니다. 이전 Amazon EMR 릴리스 버전은 경우에 따라AWS 서명 버전 2를 사용합니다. 단, 릴리스 노트에 서명 버전 4가 독점적으로 사용된다고 명시되어 있는 경우는 예외입니다. 자세한 내용은 Amazon 심플 스토리지 서비스 개발자 안내서의 요청 인증 (AWSAWS서명 버전 4) 및 요청 인증 (서명 버전 2) 을 참조하십시오.

Initial release date: 2019년 3월 20일

업그레이드
  • Flink 1.7.1

  • HBase 1.4.9

  • Oozie 5.1.0

  • Phoenix 4.14.1

  • Zeppelin 0.8.1

  • 커넥터 및 드라이버:

    • DynamoDB 4.8.0

    • MariaDB Connector 2.2.6

    • Amazon Redshift JDBC 드라이버 1.2.20.1043

새로운 기능
  • EBS 전용 스토리지를 사용하는 EC2 인스턴스 유형에 대한 기본 EBS 구성을 수정했습니다. Amazon EMR 릴리스 버전 5.22.0 이상을 사용하여 클러스터를 생성하면 EBS 스토리지의 기본 용량이 인스턴스 크기에 따라 증가합니다. 뿐만 아니라 증가한 스토리지를 여러 볼륨에 분할하여 향상된 IOPS 성능을 제공합니다. 다른 EBS 인스턴스 스토리지 구성을 사용하려는 경우 EMR 클러스터를 생성하거나 기존 클러스터에 노드를 추가할 때 이 구성을 지정할 수 있습니다. 각 인스턴스 유형에 대해 기본적으로 할당된 스토리지 양과 볼륨 수에 대한 자세한 내용은 Amazon EMR 관리 안내서의 인스턴스용 기본 EBS 스토리지를 참조하십시오.

변경, 개선 및 해결된 문제
  • Spark

    • YARN의 Spark에 새로운 구성 속성 spark.yarn.executor.memoryOverheadFactor를 추가했습니다. 이 속성의 값은 최소 384MB의 메모리 오버헤드 값을 실행기 메모리의 백분율로 설정하는 확장 팩터입니다. 메모리 오버헤드가 spark.yarn.executor.memoryOverhead를 사용하여 명시적으로 설정된 경우 이 속성은 아무 효과가 없습니다. 기본값은 18.75%를 나타내는 0.1875입니다. Amazon EMR의 이 기본값은 실행기 메모리 오버헤드를 위한 YARN 컨테이너에 Spark에서 내부적으로 설정한 10% 기본값보다 더 많은 공간을 남깁니다. Amazon EMR 기본값인 18.75% 는 경험적으로 TPC-DS 벤치마크에서 메모리 관련 오류가 더 적은 것으로 나타났습니다.

    • 성능 개선을 위해 SPARK-26316을 백포트했습니다.

  • Amazon EMR 버전 5.19.0, 5.20.0 및 5.21.0에서는 YARN 노드 레이블이 HDFS 디렉토리에 저장됩니다. 이로 인해 경우에 따라 코어 노드 시작이 지연되어 클러스터가 시간 초과되고 시작이 실패할 수 있습니다. Amazon EMR 5.22.0부터 이 문제가 해결되었습니다. YARN 노드 레이블은 각 클러스터 노드의 로컬 디스크에 저장되어 HDFS에 종속되지 않습니다.

알려진 문제
  • 색조 (아마존 EMR 릴리스 버전 5.24.0에서 수정)

    • Amazon EMR에서 실행되는 Hue는 Solr을 지원하지 않습니다. Amazon EMR 릴리스 버전 5.20.0부터 잘못된 구성 문제로 인해 Solr이 활성화되고 다음과 비슷한 무해한 오류 메시지가 표시됩니다.

      Solr server could not be contacted properly: HTTPConnectionPool('host=ip-xx-xx-xx-xx.ec2.internal', port=1978): Max retries exceeded with url: /solr/admin/info/system?user.name=hue&doAs=administrator&wt=json (Caused by NewConnectionError(': Failed to establish a new connection: [Errno 111] Connection refused',))

      Solr 오류 메시지를 표시하지 않으려면

      1. SSH를 사용하여 마스터 노드 명령줄을 연결합니다.

      2. 텍스트 편집기를 사용하여 hue.ini 파일을 엽니다. 예:

        sudo vim /etc/hue/conf/hue.ini

      3. appblacklist용어를 검색하고 라인을 다음과 같이 수정합니다.

        appblacklist = search
      4. 변경 내용을 저장하고 다음 예와 같이 Hue를 다시 시작합니다.

        sudo stop hue; sudo start hue
  • 여러 마스터 노드 및 Kerberos 인증이 있는 클러스터의 알려진 문제

    EMR 릴리스 5.20.0 이상에서 여러 마스터 노드 및 Kerberos 인증으로 클러스터를 실행하는 경우 클러스터가 일정 기간 실행된 후 축소 또는 단계 제출과 같은 클러스터 작업에 문제가 발생할 수 있습니다. 기간은 정의한 Kerberos 티켓 유효 기간에 따라 다릅니다. 축소 문제는 제출한 자동 축소 요청과 명시적 축소 요청 모두에 영향을 미칩니다. 추가 클러스터 작업도 영향을 받을 수 있습니다.

    해결 방법:

    • 여러 마스터 노드가 있는 EMR 클러스터의 리드 마스터 노드에 대한hadoop 사용자로 SSH를 사용합니다.

    • Kerberoshadoop.

      kinit -kt <keytab_file> <principal>

      일반적으로 keytab 파일은 에 있으며 주 파일은 다음과 같은 형식입니다hadoop/<hostname>@<REALM>./etc/hadoop.keytab

    참고

    이 해결 방법은 Kerberos 티켓이 유효한 기간 동안 유효합니다. 이 기간은 기본적으로 10시간이지만 Kerberos 설정에서 구성할 수 있습니다. Kerberos 티켓이 만료되면 위 명령을 다시 실행해야 합니다.

릴리스 5.21.1

다음 릴리스 노트에는 Amazon EMR 릴리스 버전 5.21.1에 대한 정보가 포함되어 있습니다. 변경 사항은 5.21.0에 관련됩니다.

Initial release date: 2019년 7월 18일

변경, 개선 및 해결된 문제
  • EMR용 기본 Amazon Linux AMI가 TCP SACK 서비스 거부 문제 (AWS-2019-005) 를 비롯한 중요한 Linux 커널 보안 업데이트를 포함하도록 업데이트했습니다.

알려진 문제
  • 여러 마스터 노드 및 Kerberos 인증이 있는 클러스터의 알려진 문제

    EMR 릴리스 5.20.0 이상에서 여러 마스터 노드 및 Kerberos 인증으로 클러스터를 실행하는 경우 클러스터가 일정 기간 실행된 후 축소 또는 단계 제출과 같은 클러스터 작업에 문제가 발생할 수 있습니다. 기간은 정의한 Kerberos 티켓 유효 기간에 따라 다릅니다. 축소 문제는 제출한 자동 축소 요청과 명시적 축소 요청 모두에 영향을 미칩니다. 추가 클러스터 작업도 영향을 받을 수 있습니다.

    해결 방법:

    • 여러 마스터 노드가 있는 EMR 클러스터의 리드 마스터 노드에 대한hadoop 사용자로 SSH를 사용합니다.

    • Kerberoshadoop.

      kinit -kt <keytab_file> <principal>

      일반적으로 keytab 파일은 에 있으며 주 파일은 다음과 같은 형식입니다hadoop/<hostname>@<REALM>./etc/hadoop.keytab

    참고

    이 해결 방법은 Kerberos 티켓이 유효한 기간 동안 유효합니다. 이 기간은 기본적으로 10시간이지만 Kerberos 설정에서 구성할 수 있습니다. Kerberos 티켓이 만료되면 위 명령을 다시 실행해야 합니다.

릴리스 5.21.0

다음 릴리스 노트에는 Amazon EMR 릴리스 버전 5.21.0에 대한 정보가 포함되어 있습니다. 변경 사항은 5.20.0에 관련됩니다.

Initial release date: 2019년 2월 18일

최종 업데이트 날짜: 2019년 4월 3일

업그레이드
  • Flink 1.7.0

  • Presto 0.215

  • AWS SDK for Java 1.11.479

새로운 기능
  • (2019년 4월 3일) Amazon EMR 버전 5.21.0 이상에서는 클러스터 구성을 재정의하고 실행 중인 클러스터의 각 인스턴스 그룹에 대해 추가 구성 분류를 지정할 수 있습니다. Amazon EMR 콘솔,AWS Command Line Interface (AWS CLI) 또는AWS SDK를 사용하여 이 작업을 수행할 수 있습니다. 자세한 내용은 실행 중 클러스터의 인스턴스 그룹에 대해 구성 제공을 참조하십시오.

변경, 개선 및 해결된 문제
알려진 문제
  • 색조 (아마존 EMR 릴리스 버전 5.24.0에서 수정)

    • Amazon EMR에서 실행되는 Hue는 Solr을 지원하지 않습니다. Amazon EMR 릴리스 버전 5.20.0부터 잘못된 구성 문제로 인해 Solr이 활성화되고 다음과 비슷한 무해한 오류 메시지가 표시됩니다.

      Solr server could not be contacted properly: HTTPConnectionPool('host=ip-xx-xx-xx-xx.ec2.internal', port=1978): Max retries exceeded with url: /solr/admin/info/system?user.name=hue&doAs=administrator&wt=json (Caused by NewConnectionError(': Failed to establish a new connection: [Errno 111] Connection refused',))

      Solr 오류 메시지를 표시하지 않으려면

      1. SSH를 사용하여 마스터 노드 명령줄을 연결합니다.

      2. 텍스트 편집기를 사용하여 hue.ini 파일을 엽니다. 예:

        sudo vim /etc/hue/conf/hue.ini

      3. appblacklist용어를 검색하고 라인을 다음과 같이 수정합니다.

        appblacklist = search
      4. 변경 내용을 저장하고 다음 예와 같이 Hue를 다시 시작합니다.

        sudo stop hue; sudo start hue
  • Tez의 Hive 실행 시간 비교

    • 이 문제는 아마존 EMR 5.22.0에서 수정되었습니다.

      클러스터 마스터 노드에 대한 SSH 연결을 통해 http://MasterDNS:8080/tez-ui의 Tez UI에 연결할 때 "Adapter operation failed - Timeline server (ATS) is out of reach. Either it is down, or CORS is not enabled(어댑터 작동이 실패했습니다. - 타임라인 서버(ATS)가 범위를 벗어났습니다. 다운되었거나 CORS가 활성화되어 있지 않습니다.)"라는 오류가 나타나거나, 작업 중 예기치 않게 N/A(해당 사항 없음)가 표시됩니다.

      이 오류는 Tez UI가 마스터 노드의 호스트 이름 대신 localhost를 사용하여 YARN Timeline Server에 요청할 때 발생합니다. 이 문제를 해결하기 위해 스크립트를 부트스트랩 작업 또는 단계로 실행할 수 있습니다. 스크립트는 Tez configs.env 파일의 호스트 이름을 업데이트합니다. 스크립트에 대한 자세한 내용과 위치를 보려면 부트스트랩 지침을 참조하십시오.

  • Amazon EMR 버전 5.19.0, 5.20.0 및 5.21.0에서는 YARN 노드 레이블이 HDFS 디렉토리에 저장됩니다. 이로 인해 경우에 따라 코어 노드 시작이 지연되어 클러스터가 시간 초과되고 시작이 실패할 수 있습니다. Amazon EMR 5.22.0부터 이 문제가 해결되었습니다. YARN 노드 레이블은 각 클러스터 노드의 로컬 디스크에 저장되어 HDFS에 종속되지 않습니다.

  • 여러 마스터 노드 및 Kerberos 인증이 있는 클러스터의 알려진 문제

    EMR 릴리스 5.20.0 이상에서 여러 마스터 노드 및 Kerberos 인증으로 클러스터를 실행하는 경우 클러스터가 일정 기간 실행된 후 축소 또는 단계 제출과 같은 클러스터 작업에 문제가 발생할 수 있습니다. 기간은 정의한 Kerberos 티켓 유효 기간에 따라 다릅니다. 축소 문제는 제출한 자동 축소 요청과 명시적 축소 요청 모두에 영향을 미칩니다. 추가 클러스터 작업도 영향을 받을 수 있습니다.

    해결 방법:

    • 여러 마스터 노드가 있는 EMR 클러스터의 리드 마스터 노드에 대한hadoop 사용자로 SSH를 사용합니다.

    • Kerberoshadoop.

      kinit -kt <keytab_file> <principal>

      일반적으로 keytab 파일은 에 있으며 주 파일은 다음과 같은 형식입니다hadoop/<hostname>@<REALM>./etc/hadoop.keytab

    참고

    이 해결 방법은 Kerberos 티켓이 유효한 기간 동안 유효합니다. 이 기간은 기본적으로 10시간이지만 Kerberos 설정에서 구성할 수 있습니다. Kerberos 티켓이 만료되면 위 명령을 다시 실행해야 합니다.

릴리스 5.20.0

다음 릴리스 노트에는 Amazon EMR 릴리스 버전 5.20.0에 대한 정보가 포함되어 있습니다. 변경 사항은 5.19.0에 관련됩니다.

Initial release date: 2018년 12월 18일

최종 업데이트 날짜: 2019년 1월 22일

업그레이드
  • Flink 1.6.2

  • HBase 1.4.8

  • Hive 2.3.4

  • Hue 4.3.0

  • MXNet 1.3.1

  • Presto 0.214

  • Spark 2.4.0

  • TensorFlow 1.12.0

  • Tez 0.9.1

  • AWS SDK for Java 1.11.461

새로운 기능
  • (2019년 1월 22일) Amazon EMR의 Kerberos는 외부 KDC의 보안 주체 인증을 지원하도록 개선되었습니다. 이는 여러 클러스터가 하나의 외부 KDC를 공유할 수 있기 때문에 보안 주체 관리를 중앙 집중화합니다. 또한 외부 KDC는 Active Directory 도메인과 교차 영역 신뢰를 가질 수 있습니다. 이를 통해 모든 클러스터는 Active Directory의 보안 주체를 인증할 수 있습니다. 자세한 내용은 Amazon EMR 관리 안내서의 Kerberos 인증 사용을 참조하십시오.

변경, 개선 및 해결된 문제
  • 아마존 EMR용 기본 아마존 리눅스 AMI

    • Python3 패키지가 python 3.4에서 3.6으로 업그레이드되었습니다.

  • EMRFS S3 최적화 커미터

    • EMRFS S3 최적화 커미터가 이제 기본적으로 활성화되며 쓰기 성능을 향상시킵니다. 자세한 내용은 EMRFS S3을 참조하세요.

  • Hive

  • Glue와 Spark 및 Hive

    • EMR 5.20.0 이상에서는AWS Glue 데이터 카탈로그를 메타스토어로 사용할 때 Spark 및 Hive에 대해 parallel 파티션 프루닝이 자동으로 활성화됩니다. 이 변경 사항은 여러 요청을 병렬로 실행하여 파티션을 검색함으로써 쿼리 계획 시간을 크게 단축합니다. 동시에 실행할 수 있는 총 세그먼트 수는 1~10입니다. 기본값은 5이며, 또한 권장 설정입니다. hive-site 구성 분류에서 aws.glue.partition.num.segments 속성을 지정하여 이 설정을 변경할 수 있습니다. 조절이 발생할 경우 값을 1로 변경하여 기능을 끌 수 있습니다. AWSGlue Storage.

알려진 문제
  • 색조 (아마존 EMR 릴리스 버전 5.24.0에서 수정)

    • Amazon EMR에서 실행되는 Hue는 Solr을 지원하지 않습니다. Amazon EMR 릴리스 버전 5.20.0부터 잘못된 구성 문제로 인해 Solr이 활성화되고 다음과 비슷한 무해한 오류 메시지가 표시됩니다.

      Solr server could not be contacted properly: HTTPConnectionPool('host=ip-xx-xx-xx-xx.ec2.internal', port=1978): Max retries exceeded with url: /solr/admin/info/system?user.name=hue&doAs=administrator&wt=json (Caused by NewConnectionError(': Failed to establish a new connection: [Errno 111] Connection refused',))

      Solr 오류 메시지를 표시하지 않으려면

      1. SSH를 사용하여 마스터 노드 명령줄을 연결합니다.

      2. 텍스트 편집기를 사용하여 hue.ini 파일을 엽니다. 예:

        sudo vim /etc/hue/conf/hue.ini

      3. appblacklist용어를 검색하고 라인을 다음과 같이 수정합니다.

        appblacklist = search
      4. 변경 내용을 저장하고 다음 예와 같이 Hue를 다시 시작합니다.

        sudo stop hue; sudo start hue
  • Tez의 Hive 실행 시간 비교

    • 이 문제는 아마존 EMR 5.22.0에서 수정되었습니다.

      클러스터 마스터 노드에 대한 SSH 연결을 통해 http://MasterDNS:8080/tez-ui의 Tez UI에 연결할 때 "Adapter operation failed - Timeline server (ATS) is out of reach. Either it is down, or CORS is not enabled(어댑터 작동이 실패했습니다. - 타임라인 서버(ATS)가 범위를 벗어났습니다. 다운되었거나 CORS가 활성화되어 있지 않습니다.)"라는 오류가 나타나거나, 작업 중 예기치 않게 N/A(해당 사항 없음)가 표시됩니다.

      이 오류는 Tez UI가 마스터 노드의 호스트 이름 대신 localhost를 사용하여 YARN Timeline Server에 요청할 때 발생합니다. 이 문제를 해결하기 위해 스크립트를 부트스트랩 작업 또는 단계로 실행할 수 있습니다. 스크립트는 Tez configs.env 파일의 호스트 이름을 업데이트합니다. 스크립트에 대한 자세한 내용과 위치를 보려면 부트스트랩 지침을 참조하십시오.

  • Amazon EMR 버전 5.19.0, 5.20.0 및 5.21.0에서는 YARN 노드 레이블이 HDFS 디렉토리에 저장됩니다. 이로 인해 경우에 따라 코어 노드 시작이 지연되어 클러스터가 시간 초과되고 시작이 실패할 수 있습니다. Amazon EMR 5.22.0부터 이 문제가 해결되었습니다. YARN 노드 레이블은 각 클러스터 노드의 로컬 디스크에 저장되어 HDFS에 종속되지 않습니다.

  • 여러 마스터 노드 및 Kerberos 인증이 있는 클러스터의 알려진 문제

    EMR 릴리스 5.20.0 이상에서 여러 마스터 노드 및 Kerberos 인증으로 클러스터를 실행하는 경우 클러스터가 일정 기간 실행된 후 축소 또는 단계 제출과 같은 클러스터 작업에 문제가 발생할 수 있습니다. 기간은 정의한 Kerberos 티켓 유효 기간에 따라 다릅니다. 축소 문제는 제출한 자동 축소 요청과 명시적 축소 요청 모두에 영향을 미칩니다. 추가 클러스터 작업도 영향을 받을 수 있습니다.

    해결 방법:

    • 여러 마스터 노드가 있는 EMR 클러스터의 리드 마스터 노드에 대한hadoop 사용자로 SSH를 사용합니다.

    • Kerberoshadoop.

      kinit -kt <keytab_file> <principal>

      일반적으로 keytab 파일은 에 있으며 주 파일은 다음과 같은 형식입니다hadoop/<hostname>@<REALM>./etc/hadoop.keytab

    참고

    이 해결 방법은 Kerberos 티켓이 유효한 기간 동안 유효합니다. 이 기간은 기본적으로 10시간이지만 Kerberos 설정에서 구성할 수 있습니다. Kerberos 티켓이 만료되면 위 명령을 다시 실행해야 합니다.

릴리스 5.19.0

다음 릴리스 노트에는 Amazon EMR 릴리스 버전 5.19.0에 대한 정보가 포함되어 있습니다. 변경 사항은 5.18.0에 관련됩니다.

Initial release date: 2018년 11월 7일

최종 업데이트 날짜: 2018년 11월 19일

업그레이드
  • 하둡 2.8.5

  • Flink 1.6.1

  • JupyterHub 0.9.4

  • MXNet 1.3.0

  • Presto 0.212

  • TensorFlow 1.11.0

  • Zookeeper 3.4.13

  • AWS SDK for Java 1.11.433

새로운 기능
  • (2018년 11월 19일) EMR Notebooks 노트북은 주피터 노트북을 기반으로 하는 관리형 환경입니다. 스파크 SQL PySpark, 스파크 R 및 스칼라에 대한 스파크 매직 커널을 지원합니다. EMR Notebooks 노트북은 Amazon EMR 릴리스 버전 5.18.0 이상을 사용하여 생성한 클러스터와 함께 사용할 수 있습니다. Amazon EMR Notebooks.

  • Spark 및 EMRFS를 사용하여 Parquet 파일을 작성할 때 EMRFS S3 최적화 커미터를 사용할 수 있습니다. 이 커미터는 쓰기 성능을 향상시킵니다. 자세한 내용은 EMRFS S3을 참조하세요.

변경, 개선 및 해결된 문제
  • YARN

  • 아마존 EMR용 기본 아마존 리눅스 AMI

    • ruby18, php56, gcc48이 이제 기본적으로 설치되지 않습니다. 필요할 경우 yum을 사용하여 설치할 수 있습니다.

    • aws-sdk 루비 젬은 더 이상 기본적으로 설치되지 않습니다. 필요할 경우 gem install aws-sdk를 사용하여 설치할 수 있습니다. 특정 구성 요소도 설치할 수 있습니다. 예: gem install aws-sdk-s3.

알려진 문제
  • EMR Notebooks —노트북 편집기가 여러 개 열려 있는 경우 노트북 편집기가 클러스터에 연결되지 않는 것처럼 보일 수 있습니다. 이 경우 브라우저 쿠키를 지우고 노트북 편집기를 다시 여십시오.

  • CloudWatch ContainerPending 지표 및 자동 조정 — (5.20.0에서 수정됨) Amazon EMR은 에 대해 음수 값을 내보낼 수ContainerPending 있습니다. 자동 조정 규칙에 ContainerPending을 사용할 경우 자동 조정이 예상대로 작동하지 않습니다. 자동 조정에 ContainerPending을 사용하지 마십시오.

  • Amazon EMR 버전 5.19.0, 5.20.0 및 5.21.0에서는 YARN 노드 레이블이 HDFS 디렉토리에 저장됩니다. 이로 인해 경우에 따라 코어 노드 시작이 지연되어 클러스터가 시간 초과되고 시작이 실패할 수 있습니다. Amazon EMR 5.22.0부터 이 문제가 해결되었습니다. YARN 노드 레이블은 각 클러스터 노드의 로컬 디스크에 저장되어 HDFS에 종속되지 않습니다.

릴리스 5.18.0

다음 릴리스 노트에는 Amazon EMR 릴리스 버전 5.18.0에 대한 정보가 포함되어 있습니다. 변경 사항은 5.17.0에 관련됩니다.

Initial release date: 2018년 10월 24일

업그레이드
  • Flink 1.6.0

  • HBase 1.4.7

  • Presto 0.210

  • Spark 2.3.2

  • Zeppelin 0.8.0

새로운 기능
  • Amazon EMR 5.18.0부터는 Amazon EMR 아티팩트 리포지토리를 사용하여 특정 Amazon EMR 릴리스 버전에서 사용할 수 있는 정확한 버전의 라이브러리 및 종속성을 기반으로 작업 코드를 구축할 수 있습니다. 자세한 내용은 Amazon EMR 아티팩트 리포지토리를 사용하여 종속성 확인을 참조하세요.

변경, 개선 및 해결된 문제

릴리스 5.17.1

다음 릴리스 노트에는 Amazon EMR 릴리스 버전 5.17.1에 대한 정보가 포함되어 있습니다. 변경 사항은 5.17.0에 관련됩니다.

Initial release date: 2019년 7월 18일

변경, 개선 및 해결된 문제
  • EMR용 기본 Amazon Linux AMI가 TCP SACK 서비스 거부 문제 (AWS-2019-005) 를 비롯한 중요한 Linux 커널 보안 업데이트를 포함하도록 업데이트했습니다.

릴리스 5.17.0

다음 릴리스 노트에는 Amazon EMR 릴리스 버전 5.17.0에 대한 정보가 포함되어 있습니다. 변경 사항은 5.16.0에 관련됩니다.

Initial release date: 2018년 8월 30일

업그레이드
  • Flink 1.5.2

  • HBase 1.4.6

  • Presto 0.206

새로운 기능
  • Tensorflow에 대한 지원을 추가했습니다. 자세한 내용은 TensorFlow을 참조하세요.

변경, 개선 및 해결된 문제
알려진 문제
  • Kerberos 인증을 사용하는 클러스터를 생성하고 Livy를 설치하면 단순 인증이 활성화되지 않았다는 오류가 발생하면서 Livy가 실패합니다. Livy 서버를 재부팅하면 문제가 해결됩니다. 차선책으로, 클러스터 생성 중에 마스터 노드에서 sudo restart livy-server를 실행하는 단계를 추가합니다.

  • 생성 날짜가 2018-08-11인 Amazon Linux AMI를 기반으로 사용자 지정 Amazon Linux AMI를 사용하면 Oozie 서버가 시작에 실패합니다. Oozie를 사용하는 경우 생성 날짜가 다른 Amazon Linux AMI ID를 기반으로 사용자 지정 AMI를 생성하십시오. 적절한 Amazon Linux AMI를 기반으로 선택할 수 있도록 다음 AWS CLI 명령을 사용하여 2018.03 버전의 모든 HVM Amazon Linux AMI에 대한 이미지 ID의 목록을 릴리스 날짜와 함께 반환할 수 있습니다. us-west-2. MyRegion

    aws ec2 --region MyRegion describe-images --owner amazon --query 'Images[?Name!=`null`]|[?starts_with(Name, `amzn-ami-hvm-2018.03`) == `true`].[CreationDate,ImageId,Name]' --output text | sort -rk1

릴리스 5.16.0

다음 릴리스 노트에는 Amazon EMR 릴리스 버전 5.16.0에 대한 정보가 포함되어 있습니다. 변경 사항은 5.15.0에 관련됩니다.

Initial release date: 2018년 7월 19일

업그레이드
  • Hadoop 2.8.4

  • Flink 1.5.0

  • Livy 0.5.0

  • MXNet 1.2.0

  • Phoenix 4.14.0

  • Presto 0.203

  • Spark 2.3.1

  • AWS SDK for Java 1.11.336

  • CUDA 9.2

  • Redshift JDBC 드라이버 1.2.15.1025

변경, 개선 및 해결된 문제
알려진 문제
  • 이 릴리스 버전은 c1.medium 또는 m1.small 인스턴스 유형을 지원하지 않습니다. 둘 중 어느 쪽이든 이런 인스턴스 유형을 사용하는 클러스터는 시작되지 않습니다. 차선책으로 다른 인스턴스 유형을 지정하거나 다른 릴리스 버전을 사용하십시오.

  • Kerberos 인증을 사용하는 클러스터를 생성하고 Livy를 설치하면 단순 인증이 활성화되지 않았다는 오류가 발생하면서 Livy가 실패합니다. Livy 서버를 재부팅하면 문제가 해결됩니다. 차선책으로, 클러스터 생성 중에 마스터 노드에서 sudo restart livy-server를 실행하는 단계를 추가합니다.

  • 마스터 노드가 재부팅되거나 인스턴스 컨트롤러가 다시 시작된 후에는 CloudWatch 지표가 수집되지 않으며 Amazon EMR 버전 5.14.0, 5.15.0 또는 5.16.0에서 자동 조정 기능을 사용할 수 없습니다. 이 문제는 아마존 EMR 5.17.0에서 수정되었습니다.

릴리스 5.15.0

다음 릴리스 노트에는 Amazon EMR 릴리스 버전 5.15.0에 대한 정보가 포함되어 있습니다. 변경 사항은 5.14.0에 관련됩니다.

Initial release date: 2018년 6월 21일

업그레이드
  • HBase를 1.4.4로 업그레이드

  • Hive를 2.3.3으로 업그레이드

  • Hue를 4.2.0으로 업그레이드

  • Oozie를 5.0.0로 업그레이드

  • Zookeeper를 3.4.12로 업그레이드

  • AWSSDK를 1.11.333으로 업그레이드했습니다

변경, 개선 및 해결된 문제
  • Hive

  • Hue

    • Kerberos 사용 시 Livy로 올바로 인증하도록 Hue를 업데이트했습니다. 이제 Amazon EMR과 함께 케르베로스를 사용할 때 Livy가 지원됩니다.

  • JupyterHub

    • Amazon EMR이 기본적으로 LDAP 클라이언트 라이브러리를 JupyterHub 설치하도록 업데이트되었습니다.

    • 자체 서명 인증서를 생성하는 스크립트 오류를 수정했습니다. 이 문제에 대한 자세한 내용은 릴리스 정보를 참조하십시오.

알려진 문제
  • 이 릴리스 버전은 c1.medium 또는 m1.small 인스턴스 유형을 지원하지 않습니다. 둘 중 어느 쪽이든 이런 인스턴스 유형을 사용하는 클러스터는 시작되지 않습니다. 차선책으로 다른 인스턴스 유형을 지정하거나 다른 릴리스 버전을 사용하십시오.

  • 마스터 노드가 재부팅되거나 인스턴스 컨트롤러가 다시 시작된 후에는 CloudWatch 지표가 수집되지 않으며 Amazon EMR 버전 5.14.0, 5.15.0 또는 5.16.0에서 자동 조정 기능을 사용할 수 없습니다. 이 문제는 아마존 EMR 5.17.0에서 수정되었습니다.

릴리스 5.14.1

다음 릴리스 노트에는 Amazon EMR 릴리스 버전 5.14.1에 대한 정보가 포함되어 있습니다. 변경 사항은 5.14.0에 관련됩니다.

최초 2018년 10월 17일

Amazon EMR의 기본 AMI를 업데이트하여 잠재적인 보안 취약성을 해결했습니다.

릴리스 5.14.0

다음 릴리스 노트에는 Amazon EMR 릴리스 버전 5.14.0에 대한 정보가 포함되어 있습니다. 변경 사항은 5.13.0에 관련됩니다.

최초 2018년 6월 4일

업그레이드
  • Apache Flink를 1.4.2로 업그레이드

  • Apache MXnet을 1.1.0으로 업그레이드

  • Apache Sqoop를 1.4.7로 업그레이드

새로운 기능
  • JupyterHub 지원이 추가되었습니다. 자세한 내용은 JupyterHub을 참조하세요.

변경, 개선 및 해결된 문제
  • EMRFS

    • Amazon S3에 대한 요청의 UserAgent 문자열이 호출 주체의 사용자 및 그룹 정보를 포함하도록 업데이트되었습니다. 보다 포괄적인 요청 추적을 위해 이 문자열을 AWS CloudTrail 로그와 함께 사용할 수 있습니다.

  • HBase

    • 특히 분할된 지역에서 캐시 문제를 일으킬 수 있는 문제를 해결하는 HBASE-20447 이 포함되었습니다.

  • MXnet

    • OpenCV 라이브러리를 추가했습니다.

  • Spark

    • Spark에서 EMRFS를 사용하여 Parquet 파일을 Amazon S3 위치에 쓸 때 버전 1 대신 버전 2를 사용하도록 FileOutputCommitter 알고리즘이 업데이트되었습니다. 따라서 이름 변경 횟수가 감소하여 애플리케이션 성능이 개선됩니다. 다음 애플리케이션에는 이 변경이 영향을 미치지 않습니다.

      • Spark 이외의 애플리케이션

      • HDFS와 같은 다른 파일 시스템에 기록하는 애플리케이션 (예: 아직 버전 1을 사용 FileOutputCommitter)

      • 텍스트 또는 csv 같이 이미 EMRFS 직접 쓰기를 사용하는 다른 출력 형식을 사용하는 애플리케이션

알려진 문제
  • JupyterHub

    • 클러스터를 생성할 때 구성 분류를 사용하여 개별 Jupyter 노트북을 설정하는 JupyterHub 것은 지원되지 않습니다. 각 사용자에 대해 수동으로 jupyterhub_config.py 파일 및 jupyter_notebook_config.py 파일을 편집하십시오. 자세한 내용은 구성 중 JupyterHub을 참조하세요.

    • JupyterHub 프라이빗 서브넷 내의 클러스터에서 시작하지 못하여 메시지와 함께Error: ENOENT: no such file or directory, open '/etc/jupyter/conf/server.crt' 실패합니다. 이는 자체 서명된 인증서를 생성하는 스크립트의 오류에 의해 야기됩니다. 다음 차선책을 사용하여 자체 서명된 인증서를 생성합니다. 모든 명령은 마스터 노드에 연결되어 있는 동안 수행됩니다.

      1. 컨테이너에서 마스터 노드로 인증서 생성 스크립트를 복사합니다.

        sudo docker cp jupyterhub:/tmp/gen_self_signed_cert.sh ./
      2. 아래와 같이 텍스트 편집기를 사용하여 23행을 변경하고 퍼블릭 호스트 이름을 로컬 호스트 이름으로 변경합니다.

        local hostname=$(curl -s $EC2_METADATA_SERVICE_URI/local-hostname)
      3. 스크립트를 실행하여 자체 서명된 인증서를 생성합니다.

        sudo bash ./gen_self_signed_cert.sh
      4. 스크립트가 생성하는 인증서 파일을 /etc/jupyter/conf/ 디렉터리로 이동합니다.

        sudo mv /tmp/server.crt /tmp/server.key /etc/jupyter/conf/

      jupyter.log파일이 JupyterHub 다시 시작되고 200 응답 코드를 반환하는지 확인할 수tail 있습니다. 예:

      tail -f /var/log/jupyter/jupyter.log

      그러면 다음과 비슷한 응답이 돌아옵니다.

      # [I 2018-06-14 18:56:51.356 JupyterHub app:1581] JupyterHub is now running at https://:9443/ # 19:01:51.359 - info: [ConfigProxy] 200 GET /api/routes
  • 마스터 노드가 재부팅되거나 인스턴스 컨트롤러가 다시 시작된 후에는 CloudWatch 지표가 수집되지 않으며 Amazon EMR 버전 5.14.0, 5.15.0 또는 5.16.0에서 자동 조정 기능을 사용할 수 없습니다. 이 문제는 아마존 EMR 5.17.0에서 수정되었습니다.

릴리스 5.13.0

다음 릴리스 노트에는 Amazon EMR 릴리스 버전 5.13.0에 대한 정보가 포함되어 있습니다. 변경 사항은 5.12.0에 관련됩니다.

업그레이드
  • Spark를 2.3.0으로 업그레이드

  • HBase를 1.4.2로 업그레이드

  • Presto를 0.194로 업그레이드

  • AWS SDK for Java1.11.297로 업그레이드되었습니다

변경, 개선 및 해결된 문제
  • Hive

    • HIVE-15436을 백포트했습니다. Hive API를 뷰만 반환하도록 개선했습니다.

알려진 문제
  • 현재 MXNet에는 OpenCV 라이브러리가 포함되어 있지 않습니다.

릴리스 5.12.2

다음 릴리스 노트에는 Amazon EMR 릴리스 버전 5.12.2에 대한 정보가 포함되어 있습니다. 변경 사항은 5.12.1에 관련됩니다.

최초 2018년 8월 29일

변경, 개선 및 해결된 문제
  • 이 릴리스는 잠재적인 보안 취약점을 해결합니다.

릴리스 5.12.1

다음 릴리스 노트에는 Amazon EMR 릴리스 버전 5.12.1에 대한 정보가 포함되어 있습니다. 변경 사항은 5.12.0에 관련됩니다.

최초 2018년 3월 29일

변경, 개선 및 해결된 문제
  • 잠재적 취약성을 해결하기 위해 Amazon EMR용 기본 아마존 리눅스 AMI의 아마존 리눅스 커널을 업데이트했습니다.

릴리스 5.12.0

다음 릴리스 노트에는 Amazon EMR 릴리스 버전 5.12.0에 대한 정보가 포함되어 있습니다. 변경 사항은 5.11.1에 관련됩니다.

업그레이드
변경, 개선 및 해결된 문제
  • Hadoop

    • yarn.resourcemanager.decommissioning.timeout 속성을 yarn.resourcemanager.nodemanager-graceful-decommission-timeout-secs로 변경했습니다. 이 속성을 사용하여 클러스터 축소를 사용자 지정할 수 있습니다. 자세한 내용은 Amazon EMR 관리 안내서의 클러스터 축소 섹션을 참조하십시오.

    • Hadoop CLI는 직접 복사를 지정하는 -d(복사) 명령에 cp 옵션을 추가했습니다. 이 방법을 사용하면 중간.COPYING 파일을 만들지 않아도 되므로 Amazon S3 간에 데이터를 더 빠르게 복사할 수 있습니다. 자세한 내용은 HADOOP-12384를 참조하십시오.

  • Pig

    • Pig 환경 속성의 구성을 단순화하는 pig-env 구성 분류를 추가했습니다. 자세한 내용은 애플리케이션 구성을 참조하세요.

  • Presto

    • Presto presto-connector-redshift 구성 파일에서 값을 구성하는 데 사용할 수 있는 redshift.properties 구성 분류를 추가했습니다. 자세한 내용은 Presto 문서의 Redshift Connector애플리케이션 구성 단원을 참조하십시오.

    • EMRFS에 대한 Presto 지원이 추가되었으며 이것이 기본 구성입니다. 이전 Amazon EMR 릴리스 버전에서는 유일한FileSystem 옵션인 PrestoS3를 사용했습니다. 자세한 내용은 EMRFS 및 PrestoS3FileSystem 구성을 참조하세요.

      참고

      Amazon EMR 버전 5.12.0을 사용하여 Amazon S3 기본 데이터를 쿼리하는 경우 프레스토 오류가 발생할 수 있습니다. 이는 Presto가 에서 구성 분류 값을 가져오지 못하기 때문입니다emrfs-site.xml. 이 문제를 해결하려면 아래에emrfs 하위 디렉토리를usr/lib/presto/plugin/hive-hadoop2/ 만들고 기존/usr/share/aws/emr/emrfs/conf/emrfs-site.xml 파일에usr/lib/presto/plugin/hive-hadoop2/emrfs 대한 심볼릭 링크를 생성하십시오. 그런 다음 presto-server 프로세스를 다시 시작합니다 (sudo presto-server stop이어서sudo presto-server start).

  • Spark

알려진 문제
  • MXNet에는 OpenCV 라이브러리가 포함되어 있지 않습니다.

  • 클러스터 노드에 R이 기본적으로 설치되어 있지 않으므로 사용자 지정 AMI를 사용하여 만든 클러스터에는 SparkR을 사용할 수 없습니다.

릴리스 5.11.3

다음 릴리스 노트에는 Amazon EMR 릴리스 버전 5.11.3에 대한 정보가 포함되어 있습니다. 변경 사항은 5.11.2에 관련됩니다.

최초 2019년 7월 18일

변경, 개선 및 해결된 문제
  • EMR용 기본 Amazon Linux AMI가 TCP SACK 서비스 거부 문제 (AWS-2019-005) 를 비롯한 중요한 Linux 커널 보안 업데이트를 포함하도록 업데이트했습니다.

릴리스 5.11.2

다음 릴리스 노트에는 Amazon EMR 릴리스 버전 5.11.2에 대한 정보가 포함되어 있습니다. 변경 사항은 5.11.1에 관련됩니다.

최초 2018년 8월 29일

변경, 개선 및 해결된 문제
  • 이 릴리스는 잠재적인 보안 취약점을 해결합니다.

릴리스 5.11.1

다음 릴리스 노트에는 Amazon EMR 버전 5.11.1 릴리스에 대한 정보가 포함되어 있습니다. 변경 사항은 Amazon EMR 5.11.0 릴리스와 관련이 있습니다.

최초 2018년 1월 22일

변경, 개선 및 해결된 문제

  • 예측 실행 (CVE-2017-5715, CVE-2017-5753 및 CVE-2017-5754) 과 관련된 취약성을 해결하도록 아마존 EMR용 기본 아마존 리눅스 AMI의 아마존 리눅스 커널을 업데이트했습니다. 자세한 내용은 http://aws.amazon.com/security/security-bulletins/AWS-2018-013/을 참조하세요.

알려진 문제

  • MXNet에는 OpenCV 라이브러리가 포함되어 있지 않습니다.

  • Hive 2.3.2에서는 기본적으로 hive.compute.query.using.stats=true를 설정합니다. 따라서 쿼리에서는 데이터를 직접 가져오지 않고 기존 통계에서 데이터를 가져오므로 혼동될 수 있습니다. 예를 들어, hive.compute.query.using.stats=true인 테이블이 있을 때 새 파일을 LOCATION 테이블에 업로드하고 테이블에서 SELECT COUNT(*) 쿼리를 실행하면 추가된 행이 선택되지 않고 통계에 있는 수치가 반환됩니다.

    차선책으로 ANALYZE TABLE 명령을 사용하여 새 통계를 수집하거나 hive.compute.query.using.stats=false를 설정합니다. 자세한 내용은 Apache Hive 설명서의 Statistics in Hive를 참조하십시오.

릴리스 5.11.0

다음 릴리스 노트에는 Amazon EMR 버전 5.11.0 릴리스에 대한 정보가 포함되어 있습니다. 변경 사항은 Amazon EMR 5.10.0 릴리스와 관련이 있습니다.

업그레이드

이 릴리스에서는 다음 버전을 포함하도록 다음 애플리케이션과 구성 요소를 업그레이드했습니다.

  • Hive 2.3.2

  • Spark 2.2.1

  • SDK for Java 1.11.238

새로운 기능

알려진 문제

  • MXNet에는 OpenCV 라이브러리가 포함되어 있지 않습니다.

  • Hive 2.3.2에서는 기본적으로 hive.compute.query.using.stats=true를 설정합니다. 따라서 쿼리에서는 데이터를 직접 가져오지 않고 기존 통계에서 데이터를 가져오므로 혼동될 수 있습니다. 예를 들어, hive.compute.query.using.stats=true인 테이블이 있을 때 새 파일을 LOCATION 테이블에 업로드하고 테이블에서 SELECT COUNT(*) 쿼리를 실행하면 추가된 행이 선택되지 않고 통계에 있는 수치가 반환됩니다.

    차선책으로 ANALYZE TABLE 명령을 사용하여 새 통계를 수집하거나 hive.compute.query.using.stats=false를 설정합니다. 자세한 내용은 Apache Hive 설명서의 Statistics in Hive를 참조하십시오.

릴리스 5.10.0

다음 릴리스 노트에는 Amazon EMR 버전 5.10.0 릴리스에 대한 정보가 포함되어 있습니다. 변경 사항은 Amazon EMR 5.9.0 릴리스와 관련이 있습니다.

업그레이드

이 릴리스에서는 다음 버전을 포함하도록 다음 애플리케이션과 구성 요소를 업그레이드했습니다.

  • AWS SDK for Java 1.11.221

  • Hive 2.3.1

  • Presto 0.187

새로운 기능

  • Kerberos 인증에 대한 지원이 추가되었습니다. 자세한 내용은 Amazon EMR 관리 안내서의 Kerberos 인증 사용을 참조하십시오.

  • Amazon S3 EMRFS IAM. 자세한 내용은 Amazon EMR 관리 안내서의 Amazon S3에 대한 EMRFS 요청에 대한 IAM 역할 구성을 참조하십시오.

  • GPU 기반의 P2 및 P3 인스턴스 유형에 대한 지원을 추가했습니다. Amazon EC2 P3. 기본적으로 이러한 유형의 인스턴스에 NVIDIA 드라이버 384.81 및 CUDA 드라이버 9.0.176가 설치됩니다.

  • Apache MXNet에 대한 지원이 추가되었습니다.

변경, 개선 및 해결된 문제

  • Presto

  • Spark

    • SPARK-20640 백포트됨. 이를 통해 rpc 타임아웃 및 셔플 등록 값의 재시도를spark.shuffle.registration.timeoutspark.shuffle.registration.maxAttempts 속성을 사용하여 구성할 수 있습니다.

    • 백포트된 SPARK-21549 - HDFS가 아닌 위치에 사용자 OutputFormat 지정을 쓸 때 발생하는 오류를 수정합니다.

  • 하둡-13270을 백포트했습니다.

  • Numpy, Scipy 및 Matplotlib 라이브러리가 기본 Amazon EMR AMI에서 제거되었습니다. 애플리케이션에서 이러한 라이브러리가 필요한 경우, 애플리케이션 리포지토리에서 라이브러리를 사용할 수 있기 때문에 부트스트랩 작업 시 yum install을 사용하여 모든 노드에 라이브러리를 설치할 수 있습니다.

  • Amazon EMR 기본 AMI에는 더 이상 애플리케이션 RPM 패키지가 포함되어 있지 않으므로 RPM 패키지는 더 이상 클러스터 노드에 존재하지 않습니다. 사용자 지정 AMI와 Amazon EMR 기본 AMI는 이제 Amazon S3 S3의 RPM 패키지 리포지토리를 참조합니다.

  • Amazon EC2 초당 요금 청구가 도입됨에 따라 이제 기본 축소 동작은 인스턴스 시간에 종료가 아니라 작업 완료 시 종료로 설정됩니다. 자세한 내용은 클러스터 축소 구성을 참조하십시오.

알려진 문제

  • MXNet에는 OpenCV 라이브러리가 포함되어 있지 않습니다.

  • Hive 2.3.1에서는 기본적으로 hive.compute.query.using.stats=true를 설정합니다. 따라서 쿼리에서는 데이터를 직접 가져오지 않고 기존 통계에서 데이터를 가져오므로 혼동될 수 있습니다. 예를 들어, hive.compute.query.using.stats=true인 테이블이 있을 때 새 파일을 LOCATION 테이블에 업로드하고 테이블에서 SELECT COUNT(*) 쿼리를 실행하면 추가된 행이 선택되지 않고 통계에 있는 수치가 반환됩니다.

    차선책으로 ANALYZE TABLE 명령을 사용하여 새 통계를 수집하거나 hive.compute.query.using.stats=false를 설정합니다. 자세한 내용은 Apache Hive 설명서의 Statistics in Hive를 참조하십시오.

릴리스 5.9.0

다음 릴리스 노트에는 Amazon EMR 버전 5.9.0 릴리스에 대한 정보가 포함되어 있습니다. 변경 사항은 Amazon EMR 5.8.0 릴리스와 관련이 있습니다.

Release date: 2017년 10월 5일

최신 기능 업데이트: 2017년 10월 12일

업그레이드

이 릴리스에서는 다음 버전을 포함하도록 다음 애플리케이션과 구성 요소를 업그레이드했습니다.

  • AWS SDK for Java 버전 1.11.183

  • Flink 1.3.2

  • Hue 4.0.1

  • Pig 0.17.0

  • Presto 0.184

새로운 기능

  • Livy 지원이 추가되었습니다(버전 0.4.0-incubating). 자세한 내용은 Apache Livy을 참조하세요.

  • Spark용 Hue Notebook에 대한 지원이 추가되었습니다.

  • i3 시리즈 Amazon EC2 인스턴스에 대한 지원이 추가되었습니다 (2017년 10월 12일).

변경, 개선 및 해결된 문제

  • Spark

    • Spark가 수동 크기 조절 또는 자동 조정 정책 요청으로 인한 노드 종료를 보다 원활하게 처리할 수 있도록 도움을 주는 새로운 기능 세트를 추가했습니다. 자세한 내용은 노드 디커미셔닝 동작 구성을 참조하세요.

    • 블록 전송 서비스의 전송 중 암호화에는 3DES 대신 SSL이 사용되므로 AES-NI와 함께 Amazon EC2 인스턴스 유형을 사용할 때 성능이 향상됩니다.

    • SPARK-21494를 백포트했습니다.

  • Zeppelin

  • HBase

    • 구성 분류를 사용하여 HBase BucketCache 구성에 대한 추가 값을 허용하는 HBASE-18533 패치가 추가되었습니다.hbase-site

  • Hue

    • Hue의 Hive 쿼리 편집기에 대한AWS Glue 데이터 카탈로그 지원이 추가되었습니다.

    • 기본적으로 Hue의 수퍼유저는 Amazon EMR IAM 역할이 액세스할 수 있는 모든 파일에 액세스할 수 있습니다. 새로 생성된 사용자는 Amazon S3 파일 브라우저에 액세스할 권한이 자동으로 부여되지 않으며 해당 그룹에 대해filebrowser.s3_access 권한을 활성화해야 합니다.

  • AWSGlue 데이터 카탈로그를 사용하여 만든 기본 JSON 데이터에 액세스할 수 없는 문제가 해결되었습니다.

알려진 문제

  • 모든 애플리케이션이 설치되고 기본 Amazon EBS 루트 볼륨 크기가 변경되지 않은 경우 클러스터 시작이 실패합니다. 차선책으로 AWS CLI에서 aws emr create-cluster 명령을 사용하고 더 큰 --ebs-root-volume-size 파라미터를 지정합니다.

  • Hive 2.3.0에서는 기본적으로 hive.compute.query.using.stats=true를 설정합니다. 따라서 쿼리에서는 데이터를 직접 가져오지 않고 기존 통계에서 데이터를 가져오므로 혼동될 수 있습니다. 예를 들어, hive.compute.query.using.stats=true인 테이블이 있을 때 새 파일을 LOCATION 테이블에 업로드하고 테이블에서 SELECT COUNT(*) 쿼리를 실행하면 추가된 행이 선택되지 않고 통계에 있는 수치가 반환됩니다.

    차선책으로 ANALYZE TABLE 명령을 사용하여 새 통계를 수집하거나 hive.compute.query.using.stats=false를 설정합니다. 자세한 내용은 Apache Hive 설명서의 Statistics in Hive를 참조하십시오.

릴리스 5.8.2

다음 릴리스 노트에는 Amazon EMR 릴리스 버전 5.8.2에 대한 정보가 포함되어 있습니다. 변경 사항은 5.8.1에 관련됩니다.

최초 2018년 3월 29일

변경, 개선 및 해결된 문제
  • 잠재적 취약성을 해결하기 위해 Amazon EMR용 기본 아마존 리눅스 AMI의 아마존 리눅스 커널을 업데이트했습니다.

릴리스 5.8.1

다음 릴리스 노트에는 Amazon EMR 버전 5.8.1 릴리스에 대한 정보가 포함되어 있습니다. 변경 사항은 Amazon EMR 5.8.0 릴리스와 관련이 있습니다.

최초 2018년 1월 22일

변경, 개선 및 해결된 문제

  • 예측 실행 (CVE-2017-5715, CVE-2017-5753 및 CVE-2017-5754) 과 관련된 취약성을 해결하도록 아마존 EMR용 기본 아마존 리눅스 AMI의 아마존 리눅스 커널을 업데이트했습니다. 자세한 내용은 http://aws.amazon.com/security/security-bulletins/AWS-2018-013/을 참조하세요.

릴리스 5.8.0

다음 릴리스 노트에는 Amazon EMR 버전 5.8.0 릴리스에 대한 정보가 포함되어 있습니다. Amazon EMR 5.7.0.

최초 2017년 8월 10일

최신 기능 업데이트: 2017년 9월 25일

업그레이드

이 릴리스에서는 다음 버전을 포함하도록 다음 애플리케이션과 구성 요소를 업그레이드했습니다.

  • AWSSDK 1.11.160

  • Flink 1.3.1

  • Hive 2.3.0 Apache Hive.

  • Spark 2.2.0 자세한 내용은 Apache Spark 사이트의 릴리스 노트를 참조하십시오.

새로운 기능

  • 애플리케이션 이력 보기 지원이 추가되었습니다(2017년 9월 25일). 자세한 내용은 Amazon EMR 관리 안내서의 애플리케이션 기록 보기를 참조하십시오.

변경, 개선 및 해결된 문제

  • AWSGlue 데이터 카탈로그와 통합

  • YARN 애플리케이션에 대한 기록 데이터 및 Spark 애플리케이션에 대한 추가 세부 정보를 볼 수 있는 클러스터 정보에 애플리케이션 이력을 추가했습니다. 자세한 내용은 Amazon EMR 관리 안내서의 애플리케이션 기록 보기를 참조하십시오.

  • Oozie

  • Hue

  • HBase

    • getMasterInitializedTime을 사용하여 JMX(Java Management Extensions)를 통해 HBase 마스터 서버 시작 시간을 공개하도록 패치를 추가했습니다.

    • 클러스터 시작 시간을 개선하는 패치를 추가했습니다.

알려진 문제

  • 모든 애플리케이션이 설치되고 기본 Amazon EBS 루트 볼륨 크기가 변경되지 않은 경우 클러스터 시작이 실패합니다. 차선책으로 AWS CLI에서 aws emr create-cluster 명령을 사용하고 더 큰 --ebs-root-volume-size 파라미터를 지정합니다.

  • Hive 2.3.0에서는 기본적으로 hive.compute.query.using.stats=true를 설정합니다. 따라서 쿼리에서는 데이터를 직접 가져오지 않고 기존 통계에서 데이터를 가져오므로 혼동될 수 있습니다. 예를 들어, hive.compute.query.using.stats=true인 테이블이 있을 때 새 파일을 LOCATION 테이블에 업로드하고 테이블에서 SELECT COUNT(*) 쿼리를 실행하면 추가된 행이 선택되지 않고 통계에 있는 수치가 반환됩니다.

    차선책으로 ANALYZE TABLE 명령을 사용하여 새 통계를 수집하거나 hive.compute.query.using.stats=false를 설정합니다. 자세한 내용은 Apache Hive 설명서의 Statistics in Hive를 참조하십시오.

  • Spark —Spark를 사용할 때 apppusher 데몬에서 파일 핸들러 누수 문제가 발생합니다. 이 문제는 몇 시간 또는 며칠 후에 장기간 실행되는 Spark 작업에서 나타날 수 있습니다. 이 문제를 해결하려면 마스터 노드에 연결하고 sudo /etc/init.d/apppusher stop을 입력합니다. 그러면 해당 앱푸셔 데몬이 중지되고 Amazon EMR이 자동으로 다시 시작됩니다.

  • 애플리케이션 이력

    • 작동 중단 Spark 실행기의 기록 데이터는 사용할 수 없습니다.

    • 진행 중인 암호화를 사용하기 위해 보안 구성을 사용하는 클러스터에서는 애플리케이션 이력을 사용할 수 없습니다.

릴리스 5.7.0

다음 릴리스 노트에는 Amazon EMR 5.7.0 릴리스에 대한 정보가 포함되어 있습니다. 변경 사항은 Amazon EMR 5.6.0 릴리스와 관련이 있습니다.

Release date: 2017년 7월 13일

업그레이드

  • Flink 1.3.0

  • Phoenix 4.11.0

  • Zeppelin 0.7.2

새로운 기능

  • 클러스터를 생성할 때 사용자 지정 Amazon Linux AMI를 지정하는 기능을 추가했습니다. AMI.

변경, 개선 및 해결된 문제

  • HBase

  • 프레스토 - 구성 기능이 추가되었습니다node.properties.

  • YARN - 구성 기능 추가container-log4j.properties

  • Sqoop - 백포트된 SQOOP-2880. 여기에는 Sqoop 임시 디렉터리를 설정할 수 있는 인수가 도입됩니다.

릴리스 5.6.0

다음 릴리스 노트에는 Amazon EMR 5.6.0 릴리스에 대한 정보가 포함되어 있습니다. 변경 사항은 Amazon EMR 5.5.0 릴리스와 관련이 있습니다.

Release date: 2017년 6월 5일

업그레이드

  • Flink 1.2.1

  • HBase 1.3.1

  • Mahout 0.13.0. Amazon EMR 2.x.

  • Spark 2.1.1

변경, 개선 및 해결된 문제

  • Presto

    • 보안 구성에서 전송 데이터 암호화를 사용하여 Presto 노드 간 SSL/TLS 보안 통신을 활성화할 수 있는 기능이 추가되었습니다. .

    • Presto 7661의 백포트와 함께 VERBOSE 옵션이 EXPLAIN ANALYZE 문에 추가되면서 쿼리 계획에 대해 더욱 자세한 저레벨 통계를 보고할 수 있게 되었습니다.

릴리스 5.5.3

다음 릴리스 노트에는 Amazon EMR 릴리스 버전 5.5.3에 대한 정보가 포함되어 있습니다. 변경 사항은 5.5.2에 관련됩니다.

최초 2018년 8월 29일

변경, 개선 및 해결된 문제
  • 이 릴리스는 잠재적인 보안 취약점을 해결합니다.

릴리스 5.5.2

다음 릴리스 노트에는 Amazon EMR 릴리스 버전 5.5.2에 대한 정보가 포함되어 있습니다. 변경 사항은 5.5.1에 관련됩니다.

최초 2018년 3월 29일

변경, 개선 및 해결된 문제
  • 잠재적 취약성을 해결하기 위해 Amazon EMR용 기본 아마존 리눅스 AMI의 아마존 리눅스 커널을 업데이트했습니다.

릴리스 5.5.1

다음 릴리스 노트에는 Amazon EMR 5.5.1 릴리스에 대한 정보가 포함되어 있습니다. 변경 사항은 Amazon EMR 5.5.0 릴리스와 관련이 있습니다.

최초 2018년 1월 22일

변경, 개선 및 해결된 문제

  • 예측 실행 (CVE-2017-5715, CVE-2017-5753 및 CVE-2017-5754) 과 관련된 취약성을 해결하도록 아마존 EMR용 기본 아마존 리눅스 AMI의 아마존 리눅스 커널을 업데이트했습니다. 자세한 내용은 http://aws.amazon.com/security/security-bulletins/AWS-2018-013/을 참조하세요.

릴리스 5.5.0

다음 릴리스 노트에는 Amazon EMR 5.5.0 릴리스에 대한 정보가 포함되어 있습니다. 변경 사항은 Amazon EMR 5.4.0 릴리스와 관련이 있습니다.

Release date: 2017 4 26

업그레이드

  • Hue 3.12

  • Presto 0.170

  • Zeppelin 0.7.1

  • ZooKeeper 3.4.10

변경, 개선 및 해결된 문제

  • Spark

  • Flink

    • Flink는 이제 Scala 2.11로 빌드됩니다. 따라서 Scala API 및 라이브러리를 사용하는 경우에는 프로젝트에 Scala 2.11을 사용하는 것이 좋습니다.

    • HADOOP_CONF_DIRYARN_CONF_DIR 기본값이 올바로 설정되지 않아서 start-scala-shell.sh 작업이 중단되던 문제가 해결되었습니다. 또한 env.hadoop.conf.dir 또는 env.yarn.conf.dir 구성 분류에서 /etc/flink/conf/flink-conf.yamlflink-conf을 사용하여 이 값들을 설정할 수 있는 기능도 추가되었습니다.

    • 새로운 EMR 전용 명령인 flink-scala-shellstart-scala-shell.sh 래퍼로 도입되었습니다. 앞으로 start-scala-shell이 아닌 이 명령을 사용하는 것이 좋습니다. 새로운 명령은 실행이 간편합니다. 예를 들어 flink-scala-shell -n 2는 Flink Scala 셸을 작업 병렬 처리 2로 시작합니다.

    • 새로운 EMR 전용 명령인 flink-yarn-sessionyarn-session.sh 래퍼로 도입되었습니다. 앞으로 yarn-session이 아닌 이 명령을 사용하는 것이 좋습니다. 새로운 명령은 실행이 간편합니다. 예를 들어, flink-yarn-session -d -n 2는 연결이 끊어진 상태에서 작업 관리자 2개를 사용하여 장기 실행 Flink 세션을 시작합니다.

    • 어드레디드 (FLINK-6125) 커먼즈 httpclient는 플링크 1.2에서 더 이상 음영 처리되지 않습니다.

  • Presto

    • LDAP 인증에 대한 지원이 추가되었습니다. Amazon EMR에서 Presto와 함께 LDAP를 사용하려면 Presto 코디네이터 (http-server.https.enabled=true에서config.properties) 에 대한 HTTPS 액세스를 활성화해야 합니다. 구성 세부 정보는 Presto 설명서의 LDAP 인증을 참조하십시오.

    • SHOW GRANTS에 대한 지원이 추가되었습니다.

  • 아마존 EMR 베이스 리눅스 AMI

    • 아마존 EMR 릴리스는 이제 아마존 리눅스 2017.03을 기반으로 합니다. Amazon Linux 2017.03.

    • 아마존 EMR 기본 리눅스 이미지에서 파이썬 2.6을 제거했습니다. 이제는 Python 2.7 및 3.4가 기본 설치됩니다. 필요하다면 Python 2.6을 수동으로 설치할 수도 있습니다.

릴리스 5.4.0

다음 릴리스 노트에는 Amazon EMR 5.4.0 릴리스에 대한 정보가 포함되어 있습니다. 변경 사항은 Amazon EMR 5.3.0 릴리스와 관련이 있습니다.

Release date: 2017 3 8

업그레이드

이 릴리스에서는 다음 업그레이드를 사용할 수 있습니다.

  • Flink 1.2.0로 업그레이드

  • Hbase 1.3.0로 업그레이드

  • Phoenix 4.9.0로 업그레이드

    참고

    이전 버전의 Amazon EMR에서 Amazon EMR 버전 5.4.0 이상으로 업그레이드하고 보조 인덱싱을 사용하는 경우 Apache Phoenix 설명서에 설명된 대로 로컬 인덱스를 업그레이드하십시오. Amazon EMR은hbase-site 분류에서 필수 구성을 제거하지만 인덱스를 다시 채워야 합니다. 인덱스의 온라인 및 오프라인 업그레이드가 지원됩니다. 온라인 업그레이드는 기본값이므로, 버전 4.8.0 이상인 Phoenix 클라이언트에서 초기화하는 동안 인덱스가 다시 채워집니다. 오프라인 업그레이드를 지정하려면 phoenix.client.localIndexUpgrade 분류에서 phoenix-site 구성을 false로 설정한 다음 SSH를 마스터 노드로 설정하여 psql [zookeeper] -1을 실행합니다.

  • Presto 0.166로 업그레이드

  • Zeppelin 0.7.0로 업그레이드

변경 사항 및 기능 향상

릴리스 레이블 emr-5.4.0에 대한 Amazon EMR 릴리스의 변경 사항은 다음과 같습니다.

릴리스 5.3.1

다음 릴리스 노트에는 Amazon EMR 5.3.1 릴리스에 대한 정보가 포함되어 있습니다. 변경 사항은 Amazon EMR 5.3.0 릴리스와 관련이 있습니다.

Release date: 2017년 2월 7일

Zeppelin 패치를 백포팅하고 Amazon EMR용 기본 AMI를 업데이트하기 위한 사소한 변경 사항

릴리스 5.3.0

다음 릴리스 노트에는 Amazon EMR 5.3.0 릴리스에 대한 정보가 포함되어 있습니다. 변경 사항은 Amazon EMR 5.2.1 릴리스와 관련이 있습니다.

Release date: 2017년 1월 26일

업그레이드

이 릴리스에서는 다음 업그레이드를 사용할 수 있습니다.

  • Hive 2.1.1으로 업그레이드

  • Hue 3.11.0로 업그레이드

  • Spark 2.1.0로 업그레이드

  • Oozie 4.3.0로 업그레이드

  • Flink 1.1.4로 업그레이드

변경 사항 및 기능 향상

릴리스 레이블 emr-5.3.0에 대한 Amazon EMR 릴리스의 변경 사항은 다음과 같습니다.

  • interpreters_shown_on_wheel 파일에 지정된 순서와 상관없이 hue.ini 설정을 사용하여 노트북 선택 휠에 첫 번째로 표시할 인터프리터를 구성할 수 있는 Hue 패치를 추가했습니다.

  • Hive의 hive-parquet-logging 파일에서 값을 구성하는 데 사용할 수 있는 parquet-logging.properties 구성 분류를 추가했습니다.

릴리스 5.2.2

다음 릴리스 노트에는 Amazon EMR 5.2.2 릴리스에 대한 정보가 포함되어 있습니다. 변경 사항은 Amazon EMR 5.2.1 릴리스와 관련이 있습니다.

Release date: 2017년 5월 2일

이전 릴리스에서 해결된 알려진 문제

  • SPARK-194459의 백포트와 함께 char/varchar 열이 포함된 ORC 테이블에서 데이터를 읽어오지 못하던 문제가 해결되었습니다.

릴리스 5.2.1

다음 릴리스 노트에는 Amazon EMR 5.2.1 릴리스에 대한 정보가 포함되어 있습니다. 변경 사항은 Amazon EMR 5.2.0 릴리스와 관련이 있습니다.

Release date: 2016 12 29

업그레이드

이 릴리스에서는 다음 업그레이드를 사용할 수 있습니다.

  • Presto 0.157.1로 업그레이드되었습니다. Presto.

  • Zookeeper 3.4.9로 업그레이드되었습니다. 자세한 내용은 Apache ZooKeeper 설명서의 ZooKeeper릴리스 노트를 참조하십시오.

변경 사항 및 기능 향상

릴리스 레이블 emr-5.2.1의 Amazon EMR 릴리스에서 변경된 사항은 다음과 같습니다.

  • 5.0.0, 5.0.3 및 5.2.0을 제외한 Amazon EMR 버전 4.8.3 이상에서 Amazon EC2 m4.16xlarge 인스턴스 유형에 대한 지원이 추가되었습니다.

  • 아마존 EMR 릴리스는 이제 아마존 리눅스 2016.09를 기반으로 합니다. 자세한 내용은 http://aws.amazon.com/amazon-linux-ami/2016.09-release-notes/을 참조하세요.

  • 이제 Flink 및 YARN 구성 경로가 /etc/default/flink에서 기본적으로 설정되므로 FLINK_CONF_DIR 또는 HADOOP_CONF_DIR 드라이버 스크립트를 실행하여 Flink 작업을 시작할 때 환경 변수 flinkyarn-session.sh을 설정할 필요가 없습니다.

  • FlinkKinesisConsumer .

이전 릴리스에서 해결된 알려진 문제

  • 대규모 클러스터에서 동일한 파일의 복제와 삭제 간의 경합으로 인해 ReplicationMonitor 스레드가 오랫동안 중단될 수 있었던 하둡의 문제를 수정했습니다.

  • 작업 상태가 성공적으로 업데이트되지 않았을 때 null 포인터 예외 (NPE) 로 ControlledJob #toString 오류가 발생하던 문제를 수정했습니다.

릴리스 5.2.0

다음 릴리스 노트에는 Amazon EMR 5.2.0 릴리스에 대한 정보가 포함되어 있습니다. 변경 사항은 Amazon EMR 5.1.0 릴리스와 관련이 있습니다.

Release date: 2016년 11월 21일

변경 사항 및 기능 향상

이 릴리스에서는 다음과 같은 변경 사항 및 기능 향상을 사용할 수 있습니다.

업그레이드

이 릴리스에서는 다음 업그레이드를 사용할 수 있습니다.

  • Spark 2.0.2로 업그레이드

이전 릴리스에서 해결된 알려진 문제

  • EBS 전용 인스턴스 유형에서 /mnt가 2TB로 제약되는 문제를 수정했습니다.

  • instance-controller 및 logpusher 로그가 매시간 회전하는 정상적인 og4j-configured .log 파일 대신 해당 .out 파일로 출력되는 문제를 수정했습니다. .out 파일은 회전하지 않으므로 결국 /emr 파티션이 파일로 가득 찰 수 있습니다. 이 문제는 하드웨어 가상 머신(HVM) 인스턴스 유형에만 영향을 미칩니다.

릴리스 5.1.0

다음 릴리스 노트에는 Amazon EMR 5.1.0 릴리스에 대한 정보가 포함되어 있습니다. 변경 사항은 Amazon EMR 5.0.0 릴리스와 관련이 있습니다.

Release date: 2016년 11월 3일

변경 사항 및 기능 향상

이 릴리스에서는 다음과 같은 변경 사항 및 기능 향상을 사용할 수 있습니다.

  • Flink 1.1.3에 대한 지원을 추가했습니다.

  • Presto는 Hue의 노트북 섹션에서 옵션으로 추가되었습니다.

업그레이드

이 릴리스에서는 다음 업그레이드를 사용할 수 있습니다.

  • HBase 1.2.3로 업그레이드

  • Zeppelin 0.6.2로 업그레이드

이전 릴리스에서 해결된 알려진 문제

  • ORC 파일이 있는 Amazon S3에서 Tez 쿼리가 이전 Amazon EMR 4.x 버전만큼 제대로 작동하지 않는 문제가 해결되었습니다.

릴리스 5.0.3

Amazon EMR 5.0.3. 변경 사항은 Amazon EMR 5.0.0 릴리스와 관련이 있습니다.

Release date: 2016년 10월 24일

업그레이드

이 릴리스에서는 다음 업그레이드를 사용할 수 있습니다.

  • Hadoop 2.7.3로 업그레이드

  • Presto 0.152.3로 업그레이드했습니다. 여기에는 Presto 웹 인터페이스에 대한 지원이 포함됩니다. 포트 8889를 사용하여 Presto 조정자의 Presto 웹 인터페이스에 액세스할 수 있습니다. Presto 웹 인터페이스에 대한 자세한 내용은 Presto 설명서의 웹 인터페이스를 참조하십시오.

  • Spark 2.0.1으로 업그레이드

  • 아마존 EMR 릴리스는 이제 아마존 리눅스 2016.09를 기반으로 합니다. 자세한 내용은 http://aws.amazon.com/amazon-linux-ami/2016.09-release-notes/을 참조하세요.

릴리스 5.0.0

Release date: 2016년 7월 27일

업그레이드

이 릴리스에서는 다음 업그레이드를 사용할 수 있습니다.

  • Hive 2.1으로 업그레이드

  • Presto 0.150로 업그레이드

  • Spark 2.0로 업그레이드

  • Hue 3.10.0로 업그레이드

  • Pig 0.16.0로 업그레이드

  • Tez 0.8.4로 업그레이드

  • Zeppelin 0.6.1으로 업그레이드

변경 사항 및 기능 향상

다음은 릴리스 라벨 emr-5.0.0 이상에 대한 Amazon EMR 릴리스의 변경 사항입니다.

  • Amazon EMR은 Hive (버전 2.1) 및 Pig (버전 0.16.0) 의 최신 오픈 소스 버전을 지원합니다. 이전에 Amazon EMR에서 Hive 또는 Pig를 사용한 적이 있다면 일부 사용 사례에 영향을 미칠 수 있습니다. 자세한 내용은 HivePig를 참조하십시오.

  • Hive 및 Pig용 기본 실행 엔진은 이제 Tez입니다. 이 항목을 변경하려면 각각 hive-sitepig-properties 구성 분류에서 해당 값을 편집합니다.

  • 향상된 단계 디버깅 기능이 추가되었습니다. 서비스에서 원인을 결정할 수 있는 경우 이 기능을 사용하여 단계 실패의 근본 원인을 확인할 수 있습니다. Amazon EMR.

  • 이전에 "-Sandbox"로 끝났던 애플리케이션은 더 이상 해당 접미사를 사용하지 않습니다. 이로 인해 예를 들어 스크립트를 사용하여 이 애플리케이션이 있는 클러스터를 시작하는 경우 자동화가 중단될 수 있습니다. 다음 표에는 Amazon EMR 4.7.2와 Amazon EMR 5.0.0의 애플리케이션 이름이 나와 있습니다.

    애플리케이션 이름 변경
    Amazon EMR 4.7.2 Amazon EMR 5.0.0
    Oozie-Sandbox Oozie
    Presto-Sandbox Presto
    Sqoop-Sandbox Sqoop
    Zeppelin-Sandbox Zeppelin
    ZooKeeper-샌드박스 ZooKeeper
  • Spark는 이제 Scala 2.11용으로 컴파일됩니다.

  • 이제 기본 JVM은 Java 8입니다. 모든 애플리케이션은 Java 8 실행 시간을 사용하여 실행됩니다. 애플리케이션의 바이트 코드 대상에는 변경 사항이 없습니다. 대부분의 애플리케이션은 계속해서 Java 7을 대상으로 합니다.

  • Zeppelin에는 이제 인증 기능이 포함됩니다. 자세한 내용은 Zeppelin을 참조하십시오.

  • 암호화 옵션을 더 쉽게 생성하고 적용할 수 있도록 보안 구성에 대한 지원을 추가했습니다. .

릴리스 4.9.5

다음 릴리스 노트에는 Amazon EMR 릴리스 버전 4.9.5에 대한 정보가 포함되어 있습니다. 변경 사항은 4.9.4에 관련됩니다.

최초 2018년 8월 29일

변경, 개선 및 해결된 문제
  • HBase

    • 이 릴리스는 잠재적인 보안 취약점을 해결합니다.

릴리스 4.9.4

다음 릴리스 노트에는 Amazon EMR 릴리스 버전 4.9.4에 대한 정보가 포함되어 있습니다. 변경 사항은 4.9.3에 관련됩니다.

최초 2018년 3월 29일

변경, 개선 및 해결된 문제
  • 잠재적 취약성을 해결하기 위해 Amazon EMR용 기본 아마존 리눅스 AMI의 아마존 리눅스 커널을 업데이트했습니다.

릴리스 4.9.3

다음 릴리스 노트에는 Amazon EMR 4.9.3 릴리스에 대한 정보가 포함되어 있습니다. 변경 사항은 Amazon EMR 4.9.2 릴리스와 관련이 있습니다.

최초 2018년 1월 22일

변경, 개선 및 해결된 문제

  • 예측 실행 (CVE-2017-5715, CVE-2017-5753 및 CVE-2017-5754) 과 관련된 취약성을 해결하도록 아마존 EMR용 기본 아마존 리눅스 AMI의 아마존 리눅스 커널을 업데이트했습니다. 자세한 내용은 http://aws.amazon.com/security/security-bulletins/AWS-2018-013/을 참조하세요.

릴리스 4.9.2

다음 릴리스 노트에는 Amazon EMR 4.9.2 릴리스에 대한 정보가 포함되어 있습니다. 변경 사항은 Amazon EMR 4.9.1 릴리스와 관련이 있습니다.

Release date: 2017년 7월 13일

이번 릴리스에서 일반적인 변경, 버그 수정 및 기능 개선이 이루어졌습니다.

릴리스 4.9.1

다음 릴리스 노트에는 Amazon EMR 4.9.1 릴리스에 대한 정보가 포함되어 있습니다. 변경 사항은 Amazon EMR 4.8.4 릴리스와 관련이 있습니다.

Release date: 2017년 10월 4일

이전 릴리스에서 해결된 알려진 문제

  • HIVE-9976HIVE-10106 백포트

  • YARN에서 다수의 노드(2,000개 이상) 및 컨테이너(5,000개 이상)가 메모리 부족 오류를 야기하던 문제(예: "Exception in thread 'main' java.lang.OutOfMemoryError")가 수정되었습니다.

변경 사항 및 기능 향상

릴리스 레이블 emr-4.9.1에 대한 Amazon EMR 릴리스의 변경 사항은 다음과 같습니다.

  • 아마존 EMR 릴리스는 이제 아마존 리눅스 2017.03을 기반으로 합니다. 자세한 내용은 http://aws.amazon.com/amazon-linux-ami/2017.03-release-notes/을 참조하세요.

  • 아마존 EMR 기본 리눅스 이미지에서 파이썬 2.6을 제거했습니다. 필요하다면 Python 2.6을 수동으로 설치할 수도 있습니다.

릴리스 4.8.4

다음 릴리스 노트에는 Amazon EMR 4.8.4 릴리스에 대한 정보가 포함되어 있습니다. 변경 사항은 Amazon EMR 4.8.3 릴리스와 관련이 있습니다.

Release date: 2017 2 7

이번 릴리스에서 일반적인 변경, 버그 수정 및 기능 개선이 이루어졌습니다.

릴리스 4.8.3

다음 릴리스 노트에는 Amazon EMR 4.8.3 릴리스에 대한 정보가 포함되어 있습니다. 변경 사항은 Amazon EMR 4.8.2 릴리스와 관련이 있습니다.

Release date: 2016 12 29

업그레이드

이 릴리스에서는 다음 업그레이드를 사용할 수 있습니다.

변경 사항 및 기능 향상

릴리스 레이블 emr-4.8.3에 대한 Amazon EMR 릴리스의 변경 사항은 다음과 같습니다.

  • 5.0.0, 5.0.3 및 5.2.0을 제외한 Amazon EMR 버전 4.8.3 이상에서 Amazon EC2 m4.16xlarge 인스턴스 유형에 대한 지원이 추가되었습니다.

  • 아마존 EMR 릴리스는 이제 아마존 리눅스 2016.09를 기반으로 합니다. 자세한 내용은 http://aws.amazon.com/amazon-linux-ami/2016.09-release-notes/을 참조하세요.

이전 릴리스에서 해결된 알려진 문제

  • 대규모 클러스터에서 동일한 파일의 복제와 삭제 간의 경합으로 인해 ReplicationMonitor 스레드가 오랫동안 중단될 수 있었던 하둡의 문제를 수정했습니다.

  • 작업 상태가 성공적으로 업데이트되지 않았을 때 null 포인터 예외 (NPE) 로 ControlledJob #toString 오류가 발생하던 문제를 수정했습니다.

릴리스 4.8.2

다음 릴리스 노트에는 Amazon EMR 4.8.2 릴리스에 대한 정보가 포함되어 있습니다. 변경 사항은 Amazon EMR 4.8.0 릴리스와 관련이 있습니다.

Release date: 2016년 10월 24일

업그레이드

이 릴리스에서는 다음 업그레이드를 사용할 수 있습니다.

  • Hadoop 2.7.3로 업그레이드

  • Presto 0.152.3로 업그레이드했습니다. 여기에는 Presto 웹 인터페이스에 대한 지원이 포함됩니다. 포트 8889를 사용하여 Presto 조정자의 Presto 웹 인터페이스에 액세스할 수 있습니다. Presto 웹 인터페이스에 대한 자세한 내용은 Presto 설명서의 웹 인터페이스를 참조하십시오.

  • 아마존 EMR 릴리스는 이제 아마존 리눅스 2016.09를 기반으로 합니다. 자세한 내용은 http://aws.amazon.com/amazon-linux-ami/2016.09-release-notes/을 참조하세요.

릴리스 4.8.0

Release date: 2016 9 7

업그레이드

이 릴리스에서는 다음 업그레이드를 사용할 수 있습니다.

  • HBase 1.2.2로 업그레이드

  • Presto-Sandbox 0.151으로 업그레이드

  • Tez 0.8.4로 업그레이드

  • Zeppelin-Sandbox 0.6.1으로 업그레이드

변경 사항 및 기능 향상

릴리스 레이블 emr-4.8.0에 대한 Amazon EMR 릴리스의 변경 사항은 다음과 같습니다.

  • YARN에서 인스턴스가 종료되어 더 이상 존재하지 않는 컨테이너를 정리하려고 시도하는 문제를 수정했습니다. ApplicationMaster

  • Oozie 예제에서 Hive2 작업에 대한 hive-server2 URL을 수정했습니다.

  • 추가 Presto 카탈로그에 대한 지원을 추가했습니다.

  • 백포트된 패치: HIVE-8948, HIVE-12679, HIVE-13405, PHOENIX-3116, HADOOP-12689

  • 암호화 옵션을 더 쉽게 생성하고 적용할 수 있도록 보안 구성에 대한 지원을 추가했습니다. .

릴리스 4.7.2

다음 릴리스 노트에는 Amazon EMR 4.7.2에 대한 정보가 포함되어 있습니다.

Release date: 2016 7 15

기능

이 릴리스에서는 다음 기능을 사용할 수 있습니다.

  • Mahout 0.12.2로 업그레이드

  • Presto 0.148으로 업그레이드

  • Spark 1.6.2로 업그레이드

  • 이제 AWSCredentialsProvider URI를 파라미터로 사용하여 EMRFS와 함께 사용할 것을 생성할 수 있습니다. 자세한 내용은 AWSCredentialsProvider EMRFS용 생성 섹션을 참조하십시오.

  • 이제 EMRFS를 통해 사용자는 의fs.s3.consistent.dynamodb.endpoint 속성을 사용하여 Consistent View 메타데이터에 대한 사용자 지정 DynamoDB 엔드포인트를 구성할 수emrfs-site.xml 있습니다.

  • /usr/bin이라고 하는 spark-example에 스크립트가 추가되면서 /usr/lib/spark/spark/bin/run-example을 래핑하여 직접 예제를 실행할 수 있습니다. SparkPi 예를 들어 Spark 배포와 함께 제공되는 예제를 실행하려면spark-example SparkPi 100 명령줄에서 실행하거나 API에서command-runner.jar 한 단계로 사용할 수 있습니다.

이전 릴리스에서 해결된 알려진 문제

  • Oozie 와 함께 Spark도 설치된 경우 spark-assembly.jar이 올바른 위치에 있지 않아서 Spark 애플리케이션이 Oozie와 함께 시작되지 못하는 문제를 수정했습니다.

  • YARN 컨테이너에서 Spark Log4j 기반 로깅 문제를 수정했습니다.

릴리스 4.7.1

Release date: 2016 6 10

이전 릴리스에서 해결된 알려진 문제

  • VPC에서 프라이빗 서브넷을 사용하여 시작된 클러스터의 스타트업 시간을 연장하는 문제를 수정했습니다. 이 버그는 Amazon EMR 4.7.0 릴리스와 함께 출시된 클러스터에만 영향을 미쳤습니다.

  • Amazon EMR 4.7.0 릴리스에서 실행된 클러스터의 Amazon EMR에서 파일 목록을 잘못 처리하던 문제를 수정했습니다.

릴리스 4.7.0

중요

Amazon EMR 4.7.0. Amazon EMR 4.7.1.

Release date: 2016년 6월 2일

기능

이 릴리스에서는 다음 기능을 사용할 수 있습니다.

  • Apache Phoenix 4.7.0 추가

  • Apache Tez 0.8.3 추가

  • HBase 1.2.1으로 업그레이드

  • Mahout 0.12.0로 업그레이드

  • Presto 0.147으로 업그레이드

  • AWS SDK for Java를 1.10.75로 업그레이드

  • 사용자가 로컬 모드에서 Pig를 실행할 수 있도록 mapreduce.cluster.local.dirmapred-site.xml 속성에서 최종 플래그가 제거되었습니다.

클러스터에서 사용할 수 있는 Amazon Redshift JDBC 드라이버

Amazon Redshift JDBC 드라이버는 이제 에 포함되어/usr/share/aws/redshift/jdbc 있습니다. /usr/share/aws/redshift/jdbc/RedshiftJDBC41.jarJDBC 4.1 호환 Amazon Redshift/usr/share/aws/redshift/jdbc/RedshiftJDBC4.jar 드라이버이며 JDBC 4.0 호환 Amazon Redshift 드라이버입니다. 자세한 내용은 Amazon Redshift 관리 안내서의 JDBC 연결 구성을 참조하십시오.

Java 8

Presto를 제외하고 모든 애플리케이션에 사용되는 기본 JDK는 OpenJDK 1.7입니다. 하지만 OpenJDK 1.7 및 1.8이 모두 설치됩니다. 애플리케이션 설정JAVA_HOME 방법에 대한 자세한 내용은 Java 8을 사용하도록 애플리케이션 구성을 참조하십시오.

이전 릴리스에서 해결된 알려진 문제

  • emr-4.6.0에서 Amazon EMR용 처리량 최적화 HDD (st1) EBS 볼륨의 성능에 크게 영향을 미치는 커널 문제가 수정되었습니다.

  • 하둡을 애플리케이션으로 선택하지 않고 HDFS 암호화 영역을 지정할 경우 클러스터가 실패하는 문제를 수정했습니다.

  • 기본 HDFS 쓰기 정책을 RoundRobin에서 AvailableSpaceVolumeChoosingPolicy로 변경했습니다. 일부 볼륨이 RoundRobin 구성에서 제대로 활용되지 않아 코어 노드에 장애가 발생하고 HDFS가 불안정해졌습니다.

  • 일관된 보기를 위해 기본 DynamoDB 메타데이터 테이블을 생성할 때 예외가 발생하는 EMRFS CLI의 문제를 수정했습니다.

  • 멀티파트 이름 바꾸기 및 복사 작업 중에 발생할 수 있는 EMRFS의 교착 문제를 수정했습니다.

  • CopyPart 크기 기본값이 5MB가 되던 EMRFS 관련 문제를 수정했습니다. 기본값은 이제 128MB로 올바르게 설정됩니다.

  • 서비스를 중단할 수 없는 Zeppelin upstart 구성 문제를 수정했습니다.

  • s3a://이 해당 클래스 경로에 올바르게 로드되지 않기 때문에 /usr/lib/hadoop/hadoop-aws.jar URI 스키마를 사용할 수 없는 Spark 및 Zeppelin 문제를 수정했습니다.

  • HUE-2484를 백포트했습니다.

  • HBase 브라우저 샘플 문제를 수정하기 위해 Hue 3.9.0(JIRA가 존재하지 않음)의 커밋을 백포트했습니다.

  • HIVE-9073를 백포트했습니다.

릴리스 4.6.0

Release date: 2016년 4월 21일

기능

이 릴리스에서는 다음 기능을 사용할 수 있습니다.

HDD (st1)

Linux 커널 버전 4.2 이상의 문제는 EMR에 사용되는 처리량에 최적화된 HDD(st1) EBS 볼륨의 성능에 상당한 영향을 미칩니다. 이 릴리스(emr-4.6.0)는 커널 버전 4.4.5를 사용하므로 영향을 받습니다. 따라서 st1 EBS 볼륨을 사용하려는 경우 emr-4.6.0를 사용하지 않는 것이 좋습니다. emr-4.5.0 또는 이전 Amazon EMR 릴리스를 st1과 함께 영향 없이 사용할 수 있습니다. 또한 향후 릴리스에서 수정을 제공합니다.

Python

이제 Python 3.4가 기본적으로 설치되지만, 시스템 기본값은 여전히 Python 2.7입니다. 부트스트랩 작업 중 하나를 사용하여 Python 3.4를 시스템 기본값으로 구성할 수 있습니다. 구성 API를 사용하여spark-env 분류에서 PYSPARK_PYTHON 내보내기를 로 설정하여/usr/bin/python3.4 에서 사용하는 Python 버전에 영향을 줄 수 PySpark 있습니다.

Java 8

Presto를 제외하고 모든 애플리케이션에 사용되는 기본 JDK는 OpenJDK 1.7입니다. 하지만 OpenJDK 1.7 및 1.8이 모두 설치됩니다. 애플리케이션 설정JAVA_HOME 방법에 대한 자세한 내용은 Java 8을 사용하도록 애플리케이션 구성을 참조하십시오.

이전 릴리스에서 해결된 알려진 문제

  • 생성된 암호로 인해 애플리케이션 프로비저닝이 가끔 임의로 실패하는 문제를 수정했습니다.

  • 이전에는 mysqld가 모든 노드에 설치되었습니다. 이제 이 항목은 마스터 인스턴스에만 설치되며 선택한 애플리케이션에 mysql-server가 구성 요소로 포함되는 경우에만 설치됩니다. 현재 다음 응용 프로그램에는mysql-server 구성 요소가 포함되어 있습니다. HCatalog, 하이브, 휴, 프레스토 샌드박스, 스웁-샌드박스.

  • yarn.scheduler.maximum-allocation-vcores를 기본값 32에서 80으로 변경했습니다. 이 변경에 따라 emr-4.4.0에 도입된 한 가지 문제가 수정됩니다. 이 문제는 코어 인스턴스 유형이 32 이상의 YARN vcore 세트를 갖춘 몇 가지 대규모 인스턴스 유형 중 하나인 클러스터에서 maximizeResourceAllocation 옵션을 사용하는 동안 주로 Spark에 발생합니다. 다시 말해서 c4.8xlarge, cc2.8xlarge, hs1.8xlarge, i2.8xlarge, m2.4xlarge, r3.8xlarge, d2.8xlarge 또는 m4.10xlarge가 이 문제의 영향을 받습니다.

  • s3-dist-cp는 이제 모든 Amazon S3 후보에 EMRFS를 사용하며 더 이상 임시 HDFS 디렉토리로 스테이징하지 않습니다.

  • 클라이언트 측 암호화 멀티파트 업로드에 대한 예외 처리 문제를 수정했습니다.

  • 사용자가 Amazon S3 스토리지 클래스를 변경할 수 있는 옵션을 추가했습니다. 기본적으로 이 설정은 STANDARD입니다. emrfs-site 구성 분류 설정은 fs.s3.storageClass이며 가능한 값은 STANDARD, STANDARD_IAREDUCED_REDUNDANCY입니다. Amazon Storage Service.

릴리스 4.5.0

Release date: 2016 4 4 4 4 4 4 4

기능

이 릴리스에서는 다음 기능을 사용할 수 있습니다.

  • Spark 1.6.1으로 업그레이드

  • Hadoop 2.7.2로 업그레이드

  • Presto 0.140로 업그레이드

  • AWS KMSAmazon S3.

이전 릴리스에서 해결된 알려진 문제

  • 노드를 재부팅한 후 MySQL 및 Apache 서버가 시작되지 않는 문제를 수정했습니다.

  • Amazon S3에 저장된 분할되지 않은 테이블에서 IMPORT가 제대로 작동하지 않는 문제가 해결되었습니다.

  • Hive 테이블에 쓸 때 준비 디렉터리를 /mnt/tmp 대신 /tmp로 지정해야 하는 Presto 문제를 수정했습니다.

릴리스 4.4.0

Release date: 2016년 3월 14일

기능

이 릴리스에서는 다음 기능을 사용할 수 있습니다.

  • HCatalog 1.0.0 추가

  • Sqoop-Sandbox 1.4.6 추가

  • Presto 0.136로 업그레이드

  • Zeppelin 0.5.6로 업그레이드

  • Mahout 0.11.1으로 업그레이드

  • dynamicResourceAllocation을 기본적으로 활성화했습니다.

  • 릴리스에 대한 모든 구성 분류의 표를 추가했습니다. .

이전 릴리스에서 해결된 알려진 문제

  • maximizeResourceAllocation설정에서 YARN ApplicationMaster 데몬을 위한 충분한 메모리를 확보하지 못하는 문제가 해결되었습니다.

  • 사용자 지정 DNS에 발생하는 문제를 수정했습니다. 제공된 사용자 지정 항목 앞에 resolve.conf의 항목이 있으면 사용자 지정 항목을 확인할 수 없습니다. 이 동작은 기본 VPC 이름 서버가 resolve.conf에 최상위 항목으로 삽입되는 VPC의 클러스터에서 영향을 받은 것입니다.

  • 기본 Python이 버전 2.7으로 이동하고 해당 버전에 대해 boto가 설치되지 않는 문제를 수정했습니다.

  • YARN 컨테이너와 Spark 애플리케이션이 고유의 Ganglia rrd(round robin database) 파일을 생성하여 인스턴스에 연결된 첫 번째 디스크가 가득 채워지는 문제를 수정했습니다. 이러한 수정으로 인해 YARN 컨테이너 수준 지표가 비활성화되었으며 Spark 애플리케이션 수준 지표가 비활성화되었습니다.

  • 로그 푸셔에서 비어 있는 모든 로그 폴더가 삭제되는 문제를 수정했습니다. 이 문제의 영향으로 로그 푸셔가 user에서 비어 있는 /var/log/hive 폴더를 제거하기 때문에 Hive CLI가 로그를 작성할 수 없었습니다.

  • Hive 가져오기에 영향을 미치는 문제를 수정했습니다. 이 문제는 파티셔닝에 영향을 미치며 결과적으로 가져오기 중 오류가 발생했습니다.

  • EMRFS 및 s3-dist-cp에서 마침표가 포함된 버킷 이름이 올바르게 처리되지 않는 문제를 수정했습니다.

  • 버전 관리를 사용하는 버킷에서 _$folder$ 마커 파일이 연속적으로 생성되지 않도록 EMRFS의 동작을 변경했습니다. 이 변경은 버전 관리를 사용하는 버킷의 성능을 향상하는 데 도움이 될 수 있습니다.

  • 클라이언트 측 암호화를 사용하는 경우를 제외하고 지침 파일을 사용하지 않도록 EMRFS의 동작을 변경했습니다. 클라이언트 측 암호화를 사용하는 동안 지침 파일을 삭제하려는 경우 emrfs-site.xml 속성인 fs.s3.cse.cryptoStorageMode.deleteInstructionFiles.enabled를 true로 설정할 수 있습니다.

  • 2일 동인 집계 대상에서 로그를 유지하도록 Changed YARN 로그 집계를 변경했습니다. 기본 대상은 클러스터의 HDFS 스토리지입니다. 이 기간을 변경하려는 경우 클러스터를 생성할 때 yarn.log-aggregation.retain-seconds 분류를 사용하여 yarn-site의 값을 변경합니다. 항상 그렇듯이 클러스터를 생성할 때log-uri 파라미터를 사용하여 애플리케이션 로그를 Amazon S3에 저장할 수 있습니다.

패치 적용

이 릴리스에는 다음과 같은 오픈 소스 프로젝트의 패치가 포함되었습니다.

릴리스 4.3.0

Release date: 2016년 1월 19일

기능

이 릴리스에서는 다음 기능을 사용할 수 있습니다.

  • Hadoop 2.7.1으로 업그레이드

  • Spark 1.6.0로 업그레이드

  • Ganglia를 3.7.2로 업그레이드

  • Presto를 0.130로 업그레이드

Amazon EMR은 true로spark.dynamicAllocation.enabled 설정될 때 몇 가지 사항을 변경했습니다. 기본값은 false입니다. 이 값을 true로 설정하면 이 설정은 maximizeResourceAllocation 설정을 통해 지정된 기본값에 영향을 미칩니다.

  • spark.dynamicAllocation.enabled가 true로 설정되면 spark.executor.instances에서 maximizeResourceAllocation가 설정되지 않습니다.

  • 이제 spark.driver.memory 설정은 spark.executors.memory가 설정되는 방식과 비슷한 방식으로 클러스터의 인스턴스 유형에 따라 구성됩니다. 하지만 Spark 드라이버 애플리케이션을 마스터 또는 코어 인스턴스 중 하나에서(예를 들면 각각 YARN 클라이언트 및 클러스터 모드에서) 실행할 수 있으므로 spark.driver.memory 설정이 이러한 두 인스턴스 그룹 중 더 작은 인스턴스 유형에 따라 설정됩니다.

  • 이제 spark.default.parallelism 설정은 YARN 컨테이너에 사용할 수 있는 CPU 코어 수의 두 배로 설정됩니다. 이전 릴리스에서 이 설정은 해당 값의 절반이었습니다.

  • Spark YARN 프로세스에서 예약된 메모리 오버헤드에 대한 계산이 더 정확하게 조정되어 Spark에 사용 가능한 총 메모리 양(즉, spark.executor.memory)이 약간 증가했습니다.

이전 릴리스에서 해결된 알려진 문제

  • 이제 YARN 로그 집계가 기본적으로 활성화됩니다.

  • YARN 로그 집계가 활성화된 경우 로그가 클러스터의 Amazon S3 로그 버킷으로 푸시되지 않는 문제가 수정되었습니다.

  • 이제 YARN 컨테이너 크기의 새로운 최소값은 모든 노드 유형에서 32입니다.

  • 대규모 클러스터의 마스터 노드에 과도한 디스크 I/O를 유발하는 Ganglia 문제를 수정했습니다.

  • 클러스터가 종료될 때 애플리케이션 로그가 Amazon S3로 푸시되지 않았던 문제를 수정했습니다.

  • EMRFS CLI에서 특정 명령이 실패하는 문제를 수정했습니다.

  • 기본 파일에 종속성이 로드되지 않았던 Zeppelin 관련 문제를 수정했습니다 SparkContext.

  • 크기 조정을 실행하여 인스턴스를 추가하려고 할 때 발생하는 문제를 수정했습니다.

  • Hive에서 CREATE TABLE AS SELECT가 Amazon S3에 과도한 목록 호출을 하는 문제를 수정했습니다.

  • Hue, Oozie 및 Ganglia를 설치하면 대규모 클러스터가 제대로 프로비저닝되지 않는 문제를 수정했습니다.

  • s3-dist-cp가 오류로 실패하더라도 0 종료 코드가 반환되는 문제를 수정했습니다.

패치 적용

이 릴리스에는 다음과 같은 오픈 소스 프로젝트의 패치가 포함되었습니다.

릴리스 4.2.0

Release date: 2015년 11월 18일

기능

이 릴리스에서는 다음 기능을 사용할 수 있습니다.

  • Ganglia 지원 추가

  • Spark 1.5.2로 업그레이드

  • Presto 0.125로 업그레이드

  • Oozie를 4.2.0로 업그레이드

  • Zeppelin을 0.5.5로 업그레이드

  • AWS SDK for Java를 1.10.27로 업그레이드

이전 릴리스에서 해결된 알려진 문제

  • 기본 메타데이터 테이블 이름이 사용되지 않는 EMRFS CLI 문제를 수정했습니다.

  • Amazon S3에서 ORC 기반 테이블을 사용할 때 발생하는 문제를 수정했습니다.

  • Spark 구성에서 Python 버전이 일치하지 않는 경우 발생하는 문제를 수정했습니다.

  • VPC에서 클러스터의 DNS 문제 때문에 YARN 노드 상태가 보고되지 않는 문제를 수정했습니다.

  • YARN에서 노드를 폐기하면 애플리케이션이 정지되거나 새 애플리케이션을 예약할 수 없게 되는 문제를 수정했습니다.

  • 클러스터가 TIMED_OUT_STARTING 상태로 종료될 때 발생하는 문제를 수정했습니다.

  • EMRFS Scala 종속성을 다른 빌드에 포함시킬 때 발생하는 문제를 수정했습니다. Scala 종속성이 제거되었습니다.