Konfigurasi HDFS - Amazon EMR

Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.

Konfigurasi HDFS

Tabel berikut menjelaskan parameter Sistem File Terdistribusi Hadoop (HDFS) default dan pengaturannya. Anda dapat mengubah nilai ini menggunakan hdfs-site klasifikasi konfigurasi. Untuk informasi selengkapnya, lihat Konfigurasikan aplikasi.

Awas
  1. Pengaturan dfs.replication ke 1 pada cluster dengan kurang dari empat node dapat menyebabkan hilangnya data HDFS jika satu node turun. Jika klaster Anda memiliki penyimpanan HDFS, sebaiknya Anda mengonfigurasi klaster dengan setidaknya empat node inti untuk beban kerja produksi agar tidak kehilangan data.

  2. Amazon EMR tidak akan mengizinkan cluster untuk menskalakan node inti di bawah ini. dfs.replication Misalnya, jikadfs.replication = 2, jumlah minimum node inti adalah 2.

  3. Saat Anda menggunakan Penskalaan terkelola, auto-scaling, atau memilih untuk mengubah ukuran klaster secara manual, sebaiknya Anda menyetel ke atau yang lebih tinggi. dfs.replication 2

Parameter Definisi Nilai default
dfs.block.size Ukuran blok HDFS. Ketika beroperasi pada data yang disimpan dalam HDFS, ukuran split umumnya merupakan ukuran blok HDFS. Nomor yang lebih besar memberikan tugas terperinci yang lebih sedikit, tetapi menempatkan ketegangan pada klaster juga lebih sedikit NameNode. 134217728 (128 MB)
dfs.replication Jumlah salinan dari setiap blok yang disimpan untuk daya tahan. Amazon EMR menetapkan nilai ini berdasarkan jumlah node inti yang disediakan oleh cluster. Sesuaikan nilai untuk memenuhi kebutuhan Anda. Untuk menimpa nilai default, gunakan hdfs-site klasifikasi.

1untuk cluster yang disediakan dengan kurang dari empat node inti

2untuk cluster yang disediakan dengan kurang dari sepuluh node inti

3untuk semua cluster lainnya