Amazon EMR 클러스터 선택 및 배포 - AWS 규범적 지침

기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.

Amazon EMR 클러스터 선택 및 배포

노드 유형을 식별하고 구성하십시오. Amazon EMR 클러스터를 정의할 때는 해당 하드웨어를 이해하는 것이 중요합니다. 어떻게 작동하나요? 어떻게 구성되어 있습니까? 이 질문에 대한 답은 세 부분으로 구성되어 있습니다.

  • 노드 유형

  • 각 노드가 수행하는 기능

  • 각 노드에 가장 효율적인 EC2 인스턴스 유형

처음에는 기본 노드가 일반 리소스 관리를 담당합니다. 분산 애플리케이션의 주요 구성 요소를 실행합니다. 예를 들어, 하둡 분산 파일 시스템 (HDFS) NameNode 서비스를 실행하고, 클러스터에서 수행할 작업을 추적하고, 시스템 상태를 모니터링합니다.

또한 Amazon EMR에는 코어 노드와 태스크 노드가 있습니다. 코어 노드는 프라이머리 노드에서 관리합니다. 코어 노드는 작업 노드를 실행하며 클러스터의 HDFS에 데이터를 저장하는 역할을 합니다. 태스크 노드는 클러스터로 전달되는 작업을 관리하는 역할을 합니다. 태스크 노드는 데이터를 저장하지 않습니다. (태스크 노드는 필수가 아닙니다.)

Amazon EMR 클러스터를 구성 및 배포할 때 중요한 고려 사항은 클러스터 노드를 대표할 EC2 인스턴스를 올바르게 선택하는 것입니다. 클러스터에 인스턴스 그룹 구성을 사용하는지 또는 인스턴스 플릿 구성을 사용하는지에 따라 여러 가지 방법으로 클러스터에 EC2 인스턴스를 추가할 수 있습니다. 지원되는 인스턴스 유형에 대한 자세한 내용은 설명서를 참조하십시오.AWS

다음 지침은 대부분의 Amazon EMR 클러스터에 적용됩니다. 클러스터 구성 모범 사례를 검토할 수도 있습니다.

인스턴스 선택 지침

일반적으로 Amazon EMR 구현에 적합한 인스턴스는 실행 중인 작업에 따라 다릅니다. 다음 질문을 고려해 보십시오.

  • 업무상 기억력이 많이 나시나요?

  • 작업에 CPU 사용량이 많나요?

  • 많은 양의 스토리지가 필요하신가요?

  • 작업에 GPU 용량이 필요한가요?

이러한 질문은 필요한 인스턴스 유형과 필요한 실제 특성을 이해하는 데 도움이 됩니다. 동시에 처리하려는 작업 수와 처리 속도를 결정하십시오. Amazon EMR 사용량은 시간당 단위로 요금이 청구되기 때문에 이 점이 중요합니다. 클러스터를 켜면 1시간 전체에 대한 요금이 부과됩니다.

여러 AWS 지역에서 실행되는 각 인스턴스의 비용을 확인할 수 있습니다. 지역 간 가격을 비교하려면 AWS 가격 계산기를 사용하고 위치에 따라 값을 변경할 수 있습니다.

EC2 인스턴스 선택

이전 질문에 답했으면 이제 해당 요구 사항에 따라 인스턴스를 선택할 차례입니다. 처리 작업 요구 사항을 이해한 후에는 필요한 특성을 기반으로 인스턴스 유형을 결정하십시오.

  • 범용 인스턴스가 필요한 경우 M6g, T4g 또는 M5 인스턴스를 선택하십시오.

  • 컴퓨팅 최적화 인스턴스가 필요한 경우 C6g 또는 C5 인스턴스를 선택하십시오.

  • 메모리 최적화 인스턴스가 필요한 경우 R6g, X1, R5 또는 z1d 인스턴스를 선택합니다.

  • 스토리지를 최적화해야 하는 경우 높은 I/O 성능을 제공하는 I3 인스턴스를 선택하십시오.

  • GPU와 같은 가속화된 컴퓨팅이 필요한 경우 P3, G4 또는 Inf1 인스턴스를 선택하십시오. 이러한 인스턴스 유형은 다른 프로세스 중에서도 기계 학습 및 유체 역학을 위한 고성능을 제공합니다.

인스턴스 유형과 기능을 이해하는 또 다른 방법은 각 인스턴스 유형의 기본 메모리를 분석하는 것입니다. 이 지표는 MapReduce 작업 성능을 튜닝하고 개선하는 데 도움이 됩니다. 자세한 내용은 Hadoop 데몬 구성 설정을 참조하십시오.

필요한 인스턴스 유형을 알면 클러스터 용량을 계획할 수 있습니다.