Amazon EMR 클러스터용 하드웨어 선택 - AWS 규범적 지침

기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.

Amazon EMR 클러스터용 하드웨어 선택

세이드 아길라, 아민 사타르, 디에고 발렌시아, 아마존 웹 서비스 (AWS)

2023년 8월(문서 기록)

Amazon EMR은 빅 데이터 처리를 위한 도구입니다. 오픈 소스 소프트웨어, 특히 아파치 스파크와 아파치 Hudi와 같은 아파치 도구를 사용합니다. 또한 저렴한 비용으로 구성하고 사용할 수 있는 몇 가지 옵션을 제공합니다.pay-as-you-go모델.

이 안내서는 이러한 탄력성을 기반으로 Amazon EMR 클러스터를 설계하는 방법을 설명하고 하드웨어를 선택할 때 따라야 할 모범 사례를 제공합니다.

개요

Amazon EMR은 아파치 하둡을 사용하여 구축되었습니다.MapReduce, 방대한 양의 데이터를 처리하기 위한 프레임워크입니다. 하둡MapReduce병렬 로직을 사용하여 분산 클러스터의 데이터를 동시에 처리합니다. 즉, 모든 프로세스에는 자체 프로세서가 있습니다. Amazon EMR은 아마존 엘라스틱 컴퓨팅 클라우드 (Amazon EC2) 에 구조화된 가상 서버로 구성된 하둡 클러스터를 사용합니다. 즉, 모든 병렬 프로세스는 Amazon Web Services에서 실행되는 독립 실행형 컴퓨터에서 이루어집니다 (AWS).

하둡 클러스터는 병렬 또는 분산 환경을 사용하여 대량의 비정형 데이터를 처리하는 데 사용되는 특정 유형의 계산 클러스터입니다. Hadoop 클러스터의 주요 특징은 확장성이 뛰어나고 데이터 처리 속도를 높이도록 구성할 수 있다는 것입니다. 노드를 추가하거나 제거하여 처리량을 늘리거나 줄임으로써 확장성에 도달할 수 있습니다. Hadoop 클러스터에서는 각 데이터가 클러스터 노드 간에 복사되므로 노드에 장애가 발생해도 데이터 손실이 거의 없습니다.

아마존 EMR에서는탄력동적 크기 조정 기능을 나타냅니다. 클러스터를 자동으로 확장하고 필요한 사항을 변경할 수 있습니다. 초기 하드웨어 설계에 의존할 필요가 없습니다.

이 안내서는 이러한 탄력성을 기반으로 Amazon EMR 클러스터를 설계하는 방법을 설명하고 하드웨어를 선택할 때 따라야 할 모범 사례를 제공합니다.