Committer yang dioptimalkan EMRFS S3 dan unggahan multipart - Amazon EMR

Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.

Committer yang dioptimalkan EMRFS S3 dan unggahan multipart

Untuk menggunakan pengurus yang dioptimalkan EMRFS S3, unggahan multibagian harus diaktifkan di Amazon EMR. Unggahan multipart diaktifkan secara default. Anda dapat mengaktifkannya kembali jika diperlukan. Untuk informasi lebih lanjut, lihat Konfigurasi unggahan multipart untuk Amazon S3 di Amazon EMR.

EMRFS S3 dioptimalkan committer menggunakan karakteristik transaksi-seperti upload multipart untuk memastikan file yang ditulis oleh upaya tugas hanya muncul di lokasi keluaran pekerjaan setelah tugas komit. Dengan menggunakan multipart upload dengan cara ini, committer meningkatkan tugas komit kinerja atas default FileOutputCommitter algoritma versi 2. Saat menggunakan pengurus yang dioptimalkan EMRFS S3, ada beberapa perbedaan utama dari perilaku pengunggahan multipart tradisional yang perlu dipertimbangkan:

  • Unggahan multipart selalu dilakukan terlepas dari ukuran file. Ini berbeda dari perilaku default EMRFS, di mana fs.s3n.multipart.uploads.split.size properti mengontrol ukuran file di mana multipart upload dipicu.

  • Multipart upload yang tersisa dalam keadaan tidak lengkap untuk jangka waktu yang lebih lama sampai tugas melakukan atau aborts. Ini berbeda dari perilaku default EMRFS di mana upload multipart selesai ketika tugas selesai menulis file yang diberikan.

Karena perbedaan ini, jika Spark Executor JVM crash atau dibunuh sementara tugas berjalan dan menulis data ke Amazon S3, upload multipart lengkap lebih mungkin tertinggal. Untuk alasan ini, ketika Anda menggunakan EMRFS S3 dioptimalkan committer, pastikan untuk mengikuti praktik terbaik untuk mengelola upload multipart gagal. Untuk informasi lebih lanjut, lihat Praktik terbaik Untuk bekerja dengan bucket Amazon S3 dalam aplikasi Amazon EMR.