Konfigurasi HDFS - Amazon EMR

Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.

Konfigurasi HDFS

Tabel berikut menjelaskan parameter Sistem File Terdistribusi Hadoop (HDFS) default dan pengaturannya. Anda dapat mengubah nilai ini menggunakan hdfs-site klasifikasi konfigurasi. Untuk informasi selengkapnya, lihat Konfigurasikan aplikasi.

Awas

Pengaturan dfs.replikasi ke 1 untuk klaster dengan kurang dari empat simpul dapat menyebabkan kehilangan data HDFS jika satu simpul turun.

Parameter Definisi Nilai default
dfs.block.size Ukuran blok HDFS. Ketika beroperasi pada data yang disimpan dalam HDFS, ukuran split umumnya merupakan ukuran blok HDFS. Nomor yang lebih besar memberikan tugas terperinci yang lebih sedikit, tetapi menempatkan ketegangan pada klaster juga lebih sedikit NameNode. 134217728 (128 MB)
dfs.replication Jumlah salinan dari setiap blok yang disimpan untuk daya tahan. Untuk klaster kecil, atur ke 2 karena klaster kecil sehingga mudah untuk me-restart kasus kehilangan data. Anda dapat mengubah pengaturan ke 1, 2, atau 3 sesuai kebutuhan Anda. Amazon EMR secara otomatis menghitung faktor replikasi berdasarkan ukuran klaster. Untuk menimpa nilai default, gunakan hdfs-site klasifikasi.

1 untuk klaster < empat simpul inti

2 untuk klaster < sepuluh simpul inti

3 untuk semua klaster lainnya