Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.
Memilih penyimpanan yang tepat
Konfigurasikan jenis dan kapasitas instans klaster Anda. Node inti dan tugas membutuhkan daya pemrosesan dan komputasi, tetapi hanya node inti yang menyimpan data. Pilih jenis penyimpanan yang paling hemat biaya untuk node inti Anda.
Saat menggunakan Amazon EMR untuk memproses data dalam jumlah besar, Anda memiliki beberapa opsi untuk memindahkan data dari Amazon S3. Pilihan terbaik tergantung pada beban kerja Anda. Bagian berikut memberikan beberapa poin penting untuk dipertimbangkan ketika memutuskan jenis penyimpanan mana yang merupakan pilihan yang tepat untuk Anda.
Sistem File Terdistribusi Hadoop
Hadoop Distributed File System (HDFS) adalah sistem file terdistribusi, terukur, dan portabel untuk Hadoop. Keuntungan dari HDFS adalah kesadaran data antara simpul klaster Hadoop yang mengelola klaster dan simpul klaster Hadoop yang mengelola langkah-langkah individu.
Kapan menggunakan HDFS di Amazon EMR
Ketika Anda memiliki pembacaan berulang pada kumpulan data yang sama atau beban kerja intensif Disk I/O, Anda dapat menggunakan HDFS untuk menyimpan hasil antara cache dan sebagai penyimpanan panas untuk memproses data. HDFS bersifat fana, yang berarti direklamasi ketika instance dihentikan.
Sistem File EMR
EMR File System (EMRFS) adalah implementasi HDFS yang biasanya digunakan kluster Amazon EMR untuk membaca dan menulis file biasa dari Amazon EMR langsung ke Amazon S3.
Anda dapat menggunakan EMRFS saat membaca kumpulan data satu kali di setiap proses. EMRFS memisahkan penyimpanan dari komputasi, jadi Anda tidak perlu menyediakan node inti khusus untuk menyimpan data, dan Anda tidak perlu membayar replikasi data dalam HDFS. Ini menghasilkan biaya yang lebih rendah, dan menyediakan ketersediaan data untuk beberapa cluster. Anda juga memiliki keuntungan mempertahankan data setelah mematikan cluster.