HDFS 구성 - Amazon EMR

HDFS 구성

다음 표에서는 기본 하둡 분산 파일 시스템(HDFS) 파라미터 및 관련 설정을 설명합니다. hdfs-site 구성 분류를 사용하여 이러한 값을 변경할 수 있습니다. 자세한 내용은 애플리케이션 구성 섹션을 참조하세요.

주의
  1. 노드 수가 4개 미만인 클러스터에서 dfs.replication을 1로 설정하면 단일 노드가 중단된 경우 HDFS 데이터가 손실될 수 있습니다. 클러스터에 HDFS 스토리지가 있는 경우 데이터 손실을 방지하려면 프로덕션 워크로드에 사용할 코어 노드를 4개 이상 포함하는 클러스터를 구성하는 것이 좋습니다.

  2. Amazon EMR은 클러스터에서 코어 노드를 dfs.replication 미만으로 조정하는 허용하지 않습니다. 예를 들어, dfs.replication = 2인 경우 최소 코어 노드 수가 2개입니다.

  3. Managed Scaling, Auto Scaling을 사용하거나 클러스터 크기를 수동으로 조정하는 경우 dfs.replication2 이상으로 설정하는 것이 좋습니다.

파라미터 정의 기본값
dfs.block.size HDFS 블록의 크기입니다. HDFS에 저장된 데이터에 대해 작동하는 경우 분할 크기는 일반적으로 HDFS 블록의 크기입니다. 숫자가 클수록 작업 세분화가 적지만 NameNode 클러스터에 부담을 덜 줍니다. 134217728(128MB)
dfs.replication 내구성을 위해 저장할 각 블록의 사본 수입니다. Amazon EMR은 클러스터에 프로비저닝된 코어 노드 수를 기반으로 이 값을 설정합니다. 필요에 맞게 값을 조정합니다. 기본값을 덮어쓰려면 hdfs-site 분류를 사용하십시오.

코어 노드가 4개 미만으로 프로비저닝된 클러스터의 경우 1

코어 노드가 10개 미만으로 프로비저닝된 클러스터의 경우 2

기타 모든 클러스터의 경우 3