기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.
Amazon EMR 클러스터 선택 및 배포
노드 유형을 식별하고 구성합니다. Amazon EMR 클러스터를 정의할 때 해당 하드웨어를 이해하는 것이 중요합니다. 어떻게 작동하나요? 어떻게 구성되나요? 이러한 질문에 대한 답변은 세 부분으로 구성됩니다.
-
노드 유형
-
각 노드가 수행하는 함수
-
각 노드에 가장 효율적인 EC2 인스턴스의 유형
처음에는 기본 노드가 일반 리소스 관리를 담당합니다. 분산 애플리케이션의 기본 구성 요소를 실행합니다. 예를 들어 Hadoop Distributed File System(HDFS) NameNode 서비스를 실행하고, 클러스터에서 수행할 작업을 추적하고, 시스템 상태를 모니터링합니다.
또한 Amazon EMR에는 코어 노드와 태스크 노드가 있습니다. 코어 노드는 프라이머리 노드에서 관리합니다. 코어 노드는 작업 노드를 실행하고 클러스터의 HDFS에 데이터를 저장하는 역할을 합니다. 작업 노드는 클러스터로 들어오는 작업을 관리하는 역할을 합니다. 작업 노드는 데이터를 저장하지 않습니다. (작업 노드는 필수가 아닙니다.)
Amazon EMR 클러스터를 구성하고 배포할 때 중요한 고려 사항은 클러스터 노드를 나타내는 EC2 인스턴스를 올바르게 선택하는 것입니다. 클러스터에 대한 인스턴스 그룹 구성 또는 인스턴스 플릿 구성을 사용하는지 여부에 따라 EC2 인스턴스를 클러스터에 추가하는 방법에는 여러 가지가 있습니다. 지원되는 인스턴스 유형에 대한 자세한 내용은 AWS 설명서를 참조하세요.
다음 지침은 대부분의 Amazon EMR 클러스터에 적용됩니다. 클러스터 구성 모범 사례를 검토할 수도 있습니다.
인스턴스 선택 지침
일반적으로 Amazon EMR 구현에 선호되는 인스턴스는 실행 중인 작업에 따라 달라집니다. 다음 질문을 고려하세요.
-
작업 메모리가 집약적입니까?
-
작업 CPU가 집약적입니까?
-
대용량 스토리지가 필요합니까?
-
작업에 GPU 용량이 필요합니까?
이러한 질문은 필요한 인스턴스 유형과 필요한 실제 특성을 이해하는 데 도움이 됩니다. 동시에 처리할 작업 수와 작업을 처리해야 하는 속도를 결정합니다. Amazon EMR 사용량은 시간당 단위로 청구되므로 이는 중요합니다. 클러스터를 켜면 전체 시간에 대한 요금이 부과됩니다.
서로 다른 AWS 리전에서 실행되는 각 인스턴스의 비용을 확인할 수 있습니다. 리전 간 가격을 비교하려면 AWS 요금 계산기
EC2 인스턴스 선택
이전 질문에 답했다면 해당 요구 사항에 따라 인스턴스를 선택해야 합니다. 처리 작업 요구 사항을 이해한 후 필요한 특성에 따라 인스턴스 유형을 결정합니다.
-
범용 인스턴스가 필요한 경우 M6g, T4g 또는 M5 인스턴스를 선택합니다.
-
컴퓨팅 최적화 인스턴스가 필요한 경우 C6g 또는 C5 인스턴스를 선택합니다.
-
메모리 최적화 인스턴스가 필요한 경우 R6g, X1, R5 또는 z1d 인스턴스를 선택합니다.
-
스토리지를 최적화해야 하는 경우 높은 I/O 성능을 제공하는 I3 인스턴스를 선택합니다.
-
GPU와 같은 가속 컴퓨팅이 필요한 경우 P3, G4 또는 Inf1 인스턴스를 선택합니다. 이러한 인스턴스 유형은 다른 프로세스 중에서도 기계 학습 및 유체 역학에 높은 성능을 제공합니다.
인스턴스 유형과 기능을 이해하는 또 다른 방법은 각 인스턴스 유형에 대한 기본 메모리를 분석하는 것입니다. 이 지표는 MapReduce 작업의 성능을 조정하고 개선하는 데 도움이 됩니다. 자세한 내용은 하둡 데몬 구성 설정을 참조하세요.
필요한 인스턴스 유형을 알고 있으면 클러스터 용량을 계획할 수 있습니다.