기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.
HDFS구성
다음 표에서는 기본 Hadoop 분산 파일 시스템 (HDFS) 매개 변수와 해당 설정에 대해 설명합니다. hdfs-site
구성 분류를 사용하여 이러한 값을 변경할 수 있습니다. 자세한 내용은 애플리케이션 구성 단원을 참조하십시오.
주의
-
노드 수가 4개 미만인 클러스터에서 1로 설정하면
dfs.replication
단일 노드에 장애가 발생할 경우 HDFS 데이터가 손실될 수 있습니다. 클러스터에 HDFS 스토리지가 있는 경우 데이터 손실을 방지하려면 프로덕션 워크로드에 사용할 코어 노드를 4개 이상 포함하는 클러스터를 구성하는 것이 좋습니다. -
EMRAmazon은 클러스터가 코어 노드를 아래로 확장하는 것을 허용하지 않습니다
dfs.replication
. 예를 들어,dfs.replication = 2
인 경우 최소 코어 노드 수가 2개입니다. -
Managed Scaling, Auto Scaling을 사용하거나 클러스터 크기를 수동으로 조정하는 경우
dfs.replication
을2
이상으로 설정하는 것이 좋습니다.
파라미터 | 정의 | 기본값 |
---|---|---|
dfs.block.size |
HDFS블록 크기. 저장된 데이터를 처리할 때 분할 크기는 일반적으로 HDFS 블록 크기입니다. HDFS 숫자가 클수록 작업 세분화가 적지만 NameNode 클러스터에 부담을 덜 줍니다. |
134217728(128MB) |
dfs.replication |
내구성을 위해 저장할 각 블록의 사본 수입니다. Amazon은 클러스터에 프로비저닝된 코어 노드 수를 기반으로 이 값을 EMR 설정합니다. 필요에 맞게 값을 조정합니다. 기본값을 덮어쓰려면 hdfs-site 분류를 사용하십시오. |
코어 노드가 4개 미만으로 프로비저닝된 클러스터의 경우 코어 노드가 10개 미만으로 프로비저닝된 클러스터의 경우 기타 모든 클러스터의 경우 |