올바른 스토리지 선택 - AWS 권장 가이드

기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.

올바른 스토리지 선택

클러스터의 인스턴스 유형 및 용량을 구성합니다. 코어 및 태스크 노드에는 처리 및 컴퓨팅 성능이 필요하지만 코어 노드만 데이터를 저장합니다. 코어 노드에 가장 비용 효율적인 스토리지 유형을 선택합니다.

대량의 데이터를 처리하기 위해 Amazon EMR을 사용하는 경우 Amazon S3에서 데이터를 이동하는 몇 가지 옵션이 있습니다. 가장 좋은 옵션은 워크로드에 따라 다릅니다. 다음 섹션에서는 어떤 스토리지 유형이 적합한지 결정할 때 고려해야 할 몇 가지 핵심 사항을 제공합니다.

하둡 분산 파일 시스템

Hadoop 분산 파일 시스템(HDFS)은 Hadoop을 위한 확장 가능하고 이동 가능한 분산 파일 시스템입니다. HDFS의 이점은 클러스터를 관리하는 하둡 클러스터 노드와 개별 단계를 관리하는 하둡 클러스터 노드 간의 데이터 인식입니다.

Amazon EMR에서 HDFS를 사용해야 하는 경우

동일한 데이터 세트 또는 디스크 I/O 집약적 워크로드에 반복 읽기가 있는 경우 중간 결과를 캐싱하는 데 HDFS를 사용하고 데이터 처리를 위한 핫 스토리지로 사용할 수 있습니다. HDFS는 임시적이므로 인스턴스가 종료될 때 회수됩니다.

EMR 파일 시스템

EMR 파일 시스템(EMRFS)은 Amazon EMR 클러스터가 Amazon EMR에서 Amazon S3로 직접 일반 파일을 읽고 쓰는 데 일반적으로 사용하는 HDFS의 구현입니다.

각 실행에서 데이터 세트를 한 번 읽을 때 EMRFS를 사용할 수 있습니다. EMRFS는 스토리지를 컴퓨팅에서 분리하므로 데이터를 저장하기 위해 특별히 코어 노드를 프로비저닝할 필요가 없으며 HDFS에서 데이터 복제 비용을 지불할 필요가 없습니다. 이로 인해 비용이 절감되고 여러 클러스터에 대한 데이터의 가용성이 제공됩니다. 또한 클러스터를 종료한 후 데이터를 유지하는 이점도 있습니다.