Penyimpanan instans - Amazon EMR

Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.

Penyimpanan instans

Gambaran Umum

Penyimpanan instans dan penyimpanan volume Amazon EBS digunakan untuk data HDFS dan untuk buffer, cache, data awal, dan konten sementara lainnya yang mungkin “tumpah” oleh beberapa aplikasi ke sistem file lokal.

Amazon EBS bekerja secara berbeda dalam Amazon EMR dibandingkan dengan instans Amazon EC2 biasa. Volume Amazon EBS yang dilampirkan ke kluster EMR Amazon bersifat sementara: volume dihapus saat klaster dan penghentian instans (misalnya, saat mengecilkan grup instans), jadi Anda seharusnya tidak mengharapkan data tetap ada. Meskipun datanya fana, ada kemungkinan bahwa data dalam HDFS dapat direplikasi tergantung pada jumlah dan spesialisasi node di cluster. Saat Anda menambahkan volume penyimpanan Amazon EBS, volume ini dipasang sebagai volume tambahan. Mereka bukan bagian dari volume asal. YARN dikonfigurasi untuk menggunakan semua volume tambahan, tetapi Anda bertanggung jawab untuk mengalokasikan volume tambahan sebagai penyimpanan lokal (untuk file log lokal, misalnya).

Pertimbangan

Ingatlah pertimbangan tambahan ini saat Anda menggunakan Amazon EBS dengan kluster EMR:

  • Anda tidak dapat memotret volume Amazon EBS dan kemudian mengembalikannya dalam Amazon EMR. Untuk membuat konfigurasi kustom yang dapat digunakan kembali, gunakan AMI kustom (tersedia di Amazon EMR versi 5.7.0 dan yang lebih baru). Untuk informasi selengkapnya, lihat Menggunakan AMI kustom.

  • Volume perangkat root Amazon EBS terenkripsi hanya didukung saat menggunakan AMI khusus. Untuk informasi selengkapnya, lihat Membuat AMI khusus dengan volume perangkat asal Amazon EBS terenkripsi.

  • Jika Anda menerapkan tag menggunakan API Amazon EMR, operasi tersebut diterapkan ke volume EBS.

  • Ada batas 25 volume per instans.

  • Volume Amazon EBS pada node inti tidak boleh kurang dari 5 GB.

  • Amazon EBS memiliki batas tetap 2.500 volume EBS per permintaan peluncuran instans. Batas ini juga berlaku untuk Amazon EMR pada kluster EC2. Kami menyarankan Anda meluncurkan cluster dengan jumlah total volume EBS dalam batas ini, lalu meningkatkan skala cluster secara manual atau dengan penskalaan terkelola Amazon EMR sesuai kebutuhan. Untuk mempelajari lebih lanjut tentang batas volume EBS, lihat Kuota layanan.

Penyimpanan Amazon EBS default untuk instans

Untuk instans EC2 yang memiliki penyimpanan khusus EBS, Amazon EMR mengalokasikan volume penyimpanan Amazon EBS gp2 atau gp3 ke instans. Saat Anda membuat klaster dengan Amazon EMR merilis 5.22.0 dan yang lebih tinggi, jumlah default penyimpanan Amazon EBS meningkat relatif terhadap ukuran instans.

Kami membagi penyimpanan yang meningkat di beberapa volume. Ini memberikan peningkatan kinerja IOPS dan, pada gilirannya, peningkatan kinerja untuk beberapa beban kerja standar. Jika Anda ingin menggunakan konfigurasi penyimpanan instans Amazon EBS yang berbeda, Anda dapat menentukan ini saat membuat klaster EMR atau menambahkan node ke cluster yang ada. Anda dapat menggunakan volume Amazon EBS gp2 atau gp3 sebagai volume root, dan menambahkan volume gp2 atau gp3 sebagai volume tambahan. Untuk informasi selengkapnya, lihat Menentukan volume penyimpanan EBS tambahan.

Tabel berikut mengidentifikasi jumlah default volume penyimpanan Amazon EBS gp2, ukuran, dan ukuran total per jenis instans. Untuk informasi tentang volume gp2 dibandingkan dengan gp3, lihat. Membandingkan jenis volume Amazon EBS gp2 dan gp3

Volume dan ukuran penyimpanan Amazon EBS gp2 default berdasarkan jenis instans untuk Amazon EMR 5.22.0 dan yang lebih tinggi
Ukuran instans Jumlah volume Ukuran volume (GiB) Ukuran total (GiB)

*.large

1

32

32

*.xlarge

2

32

64

*.2xlarge

4

32

128

*.4xlarge

4

64

256

*.8xlarge

4

128

512

*.9xlarge

4

144

576

*.10xlarge

4

160

640

12xlarge

4

192

768

*.16xlarge

4

256

1024

*.18xlarge

4

288

1152

*.24xlarge

4

384

1536

Volume root Amazon EBS default untuk instance

Dengan Amazon EMR rilis 6.15 dan lebih tinggi, Amazon EMR secara otomatis memasang Amazon EBS General Purpose SSD (gp3) sebagai perangkat root untuk AMI untuk meningkatkan kinerja. Dengan rilis sebelumnya, Amazon EMR melampirkan EBS General Purpose SSD (gp2) sebagai perangkat root.

6.15 dan lebih tinggi 6.14 dan lebih rendah
Jenis volume root default
  • gp3

  • gp2

Ukuran default
  • 15 GiB

  • (dapat dikonfigurasi)

  • 6.10 dan lebih tinggi = 15 GiB

  • 6.9 dan lebih rendah = 10 GiB

  • (dapat dikonfigurasi)

IOPS standar
  • 3000

  • (dapat dikonfigurasi)

Throughput default
  • 125 MiB/dtk

  • (dapat dikonfigurasi)

Untuk informasi tentang cara menyesuaikan volume perangkat root Amazon EBS, lihatMenentukan volume penyimpanan EBS tambahan.

Menentukan volume penyimpanan EBS tambahan

Saat Anda mengonfigurasi tipe instans di Amazon EMR, Anda dapat menentukan volume EBS tambahan untuk menambah kapasitas di luar penyimpanan instans (jika ada) dan volume EBS default. Amazon EBS menyediakan jenis volume berikut: General Purpose (SSD), Provisioned IOPS (SSD), Throughput Optimized (HDD), Cold (HDD), dan Magnetic. Mereka berbeda dalam karakteristik kinerja dan harga, sehingga Anda dapat menyesuaikan penyimpanan Anda dengan kebutuhan analitik dan bisnis aplikasi Anda. Misalnya, beberapa aplikasi mungkin perlu tumpah ke disk sementara yang lain dapat bekerja dengan aman di memori atau dengan Amazon S3.

Anda hanya dapat melampirkan volume Amazon EBS ke instans pada waktu startup cluster dan saat Anda menambahkan grup instance node tugas tambahan. Jika instance di kluster EMR Amazon gagal, maka instance dan volume Amazon EBS terlampir diganti dengan volume baru. Akibatnya, jika Anda melepaskan volume Amazon EBS secara manual, Amazon EMR menganggapnya sebagai kegagalan dan menggantikan penyimpanan instans (jika ada) dan penyimpanan volume.

Amazon EMR tidak memungkinkan Anda mengubah jenis volume dari gp2 ke gp3 untuk cluster EMR yang ada. Untuk menggunakan gp3 untuk beban kerja Anda, luncurkan klaster EMR baru. Selain itu, kami tidak menyarankan Anda memperbarui throughput dan IOPS pada klaster yang sedang digunakan atau yang sedang disediakan, karena Amazon EMR menggunakan throughput dan nilai IOPS yang Anda tentukan pada waktu peluncuran klaster untuk instans baru apa pun yang ditambahkan selama peningkatan skala cluster. Untuk informasi selengkapnya, lihat Membandingkan jenis volume Amazon EBS gp2 dan gp3 dan Memilih IOPS dan throughput saat bermigrasi ke gp3.

penting

Untuk menggunakan volume gp3 dengan cluster EMR Anda, Anda harus meluncurkan cluster baru.