Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.
Protokol komit yang dioptimalkan EMRFS S3 dan unggahan multipart
Untuk menggunakan pengoptimalan untuk penimpaan partisi dinamis dalam protokol komit yang dioptimalkan EMRFS S3, unggahan multibagian harus diaktifkan di Amazon EMR. Unggahan multipart diaktifkan secara default. Anda dapat mengaktifkannya kembali jika diperlukan. Untuk informasi lebih lanjut, lihat Konfigurasi unggahan multipart untuk Amazon S3 di Amazon EMR.
Selama penimpaan partisi dinamis, protokol komit yang dioptimalkan EMRFS S3 menggunakan karakteristik seperti transaksi dari unggahan multibagian untuk memastikan file yang ditulis oleh upaya tugas hanya muncul di lokasi output pekerjaan pada komit pekerjaan. Dengan menggunakan unggahan multibagian dengan cara ini, protokol komit meningkatkan kinerja komit pekerjaan di atas default. SQLHadoopMapReduceCommitProtocol
Saat menggunakan protokol komit yang dioptimalkan EMRFS S3, ada beberapa perbedaan utama dari perilaku pengunggahan multibagian tradisional yang perlu dipertimbangkan:
-
Unggahan multipart selalu dilakukan terlepas dari ukuran file. Ini berbeda dari perilaku default EMRFS, di mana
fs.s3n.multipart.uploads.split.size
properti mengontrol ukuran file di mana multipart upload dipicu. -
Multipart upload yang tersisa dalam keadaan tidak lengkap untuk jangka waktu yang lebih lama sampai tugas melakukan atau aborts. Ini berbeda dari perilaku default EMRFS di mana upload multipart selesai ketika tugas selesai menulis file yang diberikan.
Karena perbedaan ini, jika Spark Executor JVM mogok atau terbunuh saat tugas sedang berjalan dan menulis data ke Amazon S3, atau Spark Driver JVM mogok atau terbunuh saat pekerjaan sedang berjalan, unggahan multipart yang tidak lengkap lebih mungkin tertinggal. Untuk alasan ini, saat Anda menggunakan protokol komit yang dioptimalkan EMRFS S3, pastikan untuk mengikuti praktik terbaik untuk mengelola unggahan multipart yang gagal. Untuk informasi lebih lanjut, lihat Praktik terbaik Untuk bekerja dengan bucket Amazon S3 dalam aplikasi Amazon EMR.