Memilih dan menerapkan kluster EMR Amazon - AWS Panduan Preskriptif

Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.

Memilih dan menerapkan kluster EMR Amazon

Identifikasi dan atur jenis node. Saat Anda menentukan kluster EMR Amazon Anda, penting untuk memahami perangkat kerasnya. Bagaimana cara kerjanya? Bagaimana itu disusun? Jawaban atas pertanyaan-pertanyaan ini mencakup tiga bagian:

  • Jenis node

  • Fungsi yang dibawa oleh setiap node

  • Jenis instans EC2 yang paling efisien untuk setiap node

Awalnya, simpul utama bertugas mengelola sumber daya umum. Ini menjalankan komponen utama dari aplikasi terdistribusi. Misalnya, ia menjalankan NameNode layanan Hadoop Distributed File System (HDFS), melacak pekerjaan yang harus dilakukan di cluster, dan memantau kesehatan sistem.

Selain itu, Amazon EMR memiliki node inti dan node tugas. Node inti dikelola oleh simpul utama. Node inti menjalankan node tugas dan bertugas menyimpan data dalam HDFS di cluster. Node tugas bertugas mengelola tugas-tugas yang datang ke cluster. Node tugas tidak menyimpan data. (Node tugas tidak wajib.)

Saat mengonfigurasi dan menerapkan kluster EMR Amazon, pertimbangan penting adalah pilihan instans EC2 yang tepat yang akan mewakili node cluster Anda. Ada beberapa cara untuk menambahkan instans EC2 ke cluster, tergantung pada apakah Anda menggunakan konfigurasi grup instans atau konfigurasi armada instance untuk cluster. Untuk informasi selengkapnya tentang jenis instans yang didukung, lihat AWS dokumentasi.

Pedoman berikut berlaku untuk sebagian besar kluster EMR Amazon. Anda juga dapat meninjau praktik terbaik konfigurasi klaster.

Pedoman pemilihan instans

Secara umum, instance mana yang lebih disukai untuk implementasi EMR Amazon Anda bergantung pada pekerjaan yang Anda jalankan. Pertimbangkan pertanyaan-pertanyaan berikut:

  • Apakah memori pekerjaan Anda intensif?

  • Apakah CPU pekerjaan Anda intensif?

  • Apakah Anda membutuhkan penyimpanan dalam jumlah tinggi?

  • Apakah pekerjaan Anda membutuhkan kapasitas GPU?

Pertanyaan-pertanyaan ini akan membantu Anda memahami jenis contoh yang Anda butuhkan dan karakteristik aktual yang Anda butuhkan. Tentukan berapa banyak pekerjaan yang ingin Anda proses pada saat yang sama dan seberapa cepat Anda membutuhkan pekerjaan untuk diproses. Ini penting, karena penggunaan EMR Amazon dibebankan secara bertahap per jam. Saat Anda menghidupkan cluster, Anda dikenakan biaya selama satu jam penuh.

Anda dapat memeriksa biaya setiap instans yang berjalan di AWS Wilayah yang berbeda. Untuk membandingkan harga antar Wilayah, Anda dapat menggunakan Kalkulator AWS Harga dan mengubah nilai berdasarkan lokasi Anda.

Memilih instans EC2

Ketika Anda telah menjawab pertanyaan sebelumnya, sekarang saatnya untuk memilih instance berdasarkan persyaratan tersebut. Setelah Anda memahami kebutuhan pekerjaan pemrosesan Anda, tentukan jenis instans berdasarkan karakteristik yang Anda butuhkan:

  • Jika Anda memerlukan instans tujuan umum, pilih instans M6g, T4G, atau M5.

  • Jika Anda memerlukan instans yang dioptimalkan untuk komputasi, pilih instans C6g atau C5.

  • Jika Anda memerlukan instans yang dioptimalkan untuk memori, pilih instans R6g, X1, R5, atau z1d.

  • Jika Anda harus mengoptimalkan penyimpanan, pilih instans I3, yang memberikan kinerja I/O tinggi.

  • Jika Anda memerlukan komputasi yang dipercepat seperti GPU, pilih instans P3, G4, atau Inf1. Jenis instance ini memberikan kinerja tinggi untuk pembelajaran mesin dan dinamika fluida, di antara proses lainnya.

Cara lain untuk memahami jenis instance dan kemampuannya adalah dengan menganalisis memori default untuk setiap jenis instance. Metrik ini membantu Anda menyesuaikan dan meningkatkan kinerja MapReduce pekerjaan Anda. Untuk informasi selengkapnya, lihat Pengaturan konfigurasi daemon Hadoop.

Ketika Anda mengetahui jenis instance yang Anda butuhkan, Anda dapat merencanakan kapasitas cluster Anda.