HDFS구성 - 아마존 EMR

기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.

HDFS구성

다음 표에서는 기본 Hadoop 분산 파일 시스템 (HDFS) 매개 변수와 해당 설정에 대해 설명합니다. hdfs-site 구성 분류를 사용하여 이러한 값을 변경할 수 있습니다. 자세한 내용은 애플리케이션 구성 단원을 참조하십시오.

주의
  1. 노드 수가 4개 미만인 클러스터에서 1로 설정하면 dfs.replication 단일 노드에 장애가 발생할 경우 HDFS 데이터가 손실될 수 있습니다. 클러스터에 HDFS 스토리지가 있는 경우 데이터 손실을 방지하려면 프로덕션 워크로드에 사용할 코어 노드를 4개 이상 포함하는 클러스터를 구성하는 것이 좋습니다.

  2. EMRAmazon은 클러스터가 코어 노드를 아래로 확장하는 것을 허용하지 않습니다dfs.replication. 예를 들어, dfs.replication = 2인 경우 최소 코어 노드 수가 2개입니다.

  3. Managed Scaling, Auto Scaling을 사용하거나 클러스터 크기를 수동으로 조정하는 경우 dfs.replication2 이상으로 설정하는 것이 좋습니다.

파라미터 정의 기본값
dfs.block.size HDFS블록 크기. 저장된 데이터를 처리할 때 분할 크기는 일반적으로 HDFS 블록 크기입니다. HDFS 숫자가 클수록 작업 세분화가 적지만 NameNode 클러스터에 부담을 덜 줍니다. 134217728(128MB)
dfs.replication 내구성을 위해 저장할 각 블록의 사본 수입니다. Amazon은 클러스터에 프로비저닝된 코어 노드 수를 기반으로 이 값을 EMR 설정합니다. 필요에 맞게 값을 조정합니다. 기본값을 덮어쓰려면 hdfs-site 분류를 사용하십시오.

코어 노드가 4개 미만으로 프로비저닝된 클러스터의 경우 1

코어 노드가 10개 미만으로 프로비저닝된 클러스터의 경우 2

기타 모든 클러스터의 경우 3