Bekerja dengan penyimpanan dan sistem file dengan Amazon EMR - Amazon EMR

Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.

Bekerja dengan penyimpanan dan sistem file dengan Amazon EMR

Amazon EMR dan Hadoop menyediakan berbagai sistem file yang dapat Anda gunakan saat memproses langkah-langkah cluster. Anda menentukan sistem file mana yang akan digunakan dengan awalan yang URI digunakan untuk mengakses data. Misalnya, s3://amzn-s3-demo-bucket1/path mereferensikan bucket Amazon S3 menggunakan. EMRFS Tabel berikut mencantumkan sistem file yang tersedia, dengan rekomendasi tentang kapan sebaiknya masing-masing digunakan.

Amazon EMR dan Hadoop biasanya menggunakan dua atau lebih sistem file berikut saat memproses cluster. HDFSdan EMRFS merupakan dua sistem file utama yang digunakan dengan AmazonEMR.

penting

Dimulai dengan EMR rilis Amazon 5.22.0, Amazon EMR menggunakan AWS Signature Version 4 secara eksklusif untuk mengautentikasi permintaan ke Amazon S3. EMRRilis Amazon sebelumnya menggunakan AWS Signature Version 2 dalam beberapa kasus, kecuali catatan rilis menunjukkan bahwa Signature Version 4 digunakan secara eksklusif. Untuk informasi selengkapnya, lihat Mengautentikasi Permintaan (Versi AWS Tanda Tangan 4) dan Permintaan Otentikasi (Versi AWS Tanda Tangan 2) di Panduan Pengembang Layanan Penyimpanan Sederhana Amazon.

Sistem file Prefiks Deskripsi
HDFS hdfs:// (atau tanpa prefiks)

HDFSadalah sistem file terdistribusi, skalabel, dan portabel untuk Hadoop. Keuntungannya HDFS adalah kesadaran data antara node cluster Hadoop yang mengelola cluster dan node cluster Hadoop yang mengelola langkah-langkah individu. Untuk informasi selengkapnya, lihat Dokumentasi Hadoop.

HDFSdigunakan oleh node master dan inti. Salah satu keuntungannya adalah cepat; kerugiannya adalah penyimpanan sementara yang direklamasi ketika klaster berakhir. Ini paling baik digunakan untuk melakukan cache hasil yang dibuat oleh langkah-langkah alur kerja menengah.

EMRFS s3://

EMRFSadalah implementasi dari sistem file Hadoop yang digunakan untuk membaca dan menulis file reguler dari Amazon EMR langsung ke Amazon S3. EMRFSmemberikan kemudahan menyimpan data persisten di Amazon S3 untuk digunakan dengan Hadoop sambil juga menyediakan fitur seperti enkripsi sisi server Amazon S3, konsistensi, dan konsistensi daftar. read-after-write

catatan

Sebelumnya, Amazon EMR menggunakan sistem s3a file s3n dan file. Meskipun keduanya masih berfungsi, kami menyarankan Anda menggunakan s3 URI skema untuk kinerja, keamanan, dan keandalan terbaik.

Sistem file lokal

Sistem file lokal mengacu pada disk yang terhubung secara lokal. Ketika cluster Hadoop dibuat, setiap node dibuat dari EC2 instance yang dilengkapi dengan blok penyimpanan disk preattached yang telah dikonfigurasi sebelumnya yang disebut penyimpanan instance. Data pada volume penyimpanan instance hanya bertahan selama masa pakai EC2 instance-nya. Volume penyimpanan instans cocok untuk menyimpan data sementara yang terus berubah, seperti buffer, cache, data scratch, dan konten sementara lainnya. Untuk informasi selengkapnya, lihat Penyimpanan EC2 instans Amazon.

Sistem file lokal digunakan olehHDFS, tetapi Python juga berjalan dari sistem file lokal dan Anda dapat memilih untuk menyimpan file aplikasi tambahan pada volume penyimpanan instance.

Sistem file blok Amazon S3 (Legasi) s3bfs://

Sistem file blok Amazon S3 adalah sistem penyimpanan file legasi. Kami sangat mencegah penggunaan sistem ini.

penting

Kami sarankan Anda tidak menggunakan sistem file ini karena dapat memicu kondisi balapan yang mungkin menyebabkan kegagalan klaster Anda. Namun, ini mungkin diperlukan oleh aplikasi warisan.

Mengakses sistem file

Anda menentukan sistem file mana yang akan digunakan dengan awalan dari uniform resource identifier (URI) yang digunakan untuk mengakses data. Prosedur berikut menggambarkan cara mereferensikan beberapa jenis sistem file yang berbeda.

Untuk mengakses lokal HDFS
  • Tentukan hdfs:/// awalan di. URI Amazon EMR menyelesaikan jalur yang tidak menentukan awalan di URI ke lokal. HDFS Misalnya, kedua hal berikut URIs akan menyelesaikan ke lokasi yang sama diHDFS.

    hdfs:///path-to-data /path-to-data
Untuk mengakses remote HDFS
  • Sertakan alamat IP node master diURI, seperti yang ditunjukkan pada contoh berikut.

    hdfs://master-ip-address/path-to-data master-ip-address/path-to-data
Untuk mengakses Amazon S3
  • Gunakan s3:// prefiks.

    s3://bucket-name/path-to-file-in-bucket
Untuk mengakses sistem file blok Amazon S3
  • Gunakan hanya untuk aplikasi warisan yang membutuhkan sistem file blok Amazon S3. Untuk mengakses atau menyimpan data dengan sistem file ini, gunakan s3bfs:// awalan di URI file.

    Sistem file blok Amazon S3 adalah sistem file warisan yang digunakan untuk mendukung pengunggahan ke Amazon S3 yang berukuran lebih besar dari 5 GB. Dengan fungsionalitas unggahan multipart yang EMR disediakan Amazon melalui AWS JavaSDK, Anda dapat mengunggah file berukuran hingga 5 TB ke sistem file asli Amazon S3, dan sistem file blok Amazon S3 tidak digunakan lagi.

    Awas

    Karena sistem file warisan ini dapat membuat kondisi balapan yang dapat merusak sistem file, Anda harus menghindari format ini dan menggunakannya EMRFS sebagai gantinya.

    s3bfs://bucket-name/path-to-file-in-bucket