Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.
Memigrasikan data dari lingkungan Hadoop lokal ke Amazon S3 menggunakan AWS untuk Amazon S3 DistCp PrivateLink
Jason Owens, Andres Cantor, Jeff Klopfenstein, Bruno Rocha Oliveira, dan Samuel Schmidt, Amazon Web Services
Ringkasan
Pola ini menunjukkan cara memigrasikan hampir semua jumlah data dari lingkungan Apache Hadoop lokal ke Amazon Web Services (AWS) Cloud dengan menggunakan alat open-source Apache dengan DistCp
Panduan ini memberikan petunjuk penggunaan DistCp untuk memigrasikan data ke AWS Cloud. DistCp adalah alat yang paling umum digunakan, tetapi alat migrasi lainnya tersedia. Misalnya, Anda dapat menggunakan alat AWS offline seperti AWS Snowball atau AWS Snowmobile, atau alat AWS online seperti AWS Storage Gateway atau AWS. DataSync
Prasyarat dan batasan
Prasyarat
Akun AWS aktif dengan koneksi jaringan pribadi antara pusat data lokal dan AWS Cloud
Pengguna Hadoop dengan akses ke data migrasi di Hadoop Distributed File System (HDFS)
AWS Command Line Interface (AWS CLI), diinstal dan dikonfigurasi
Izin untuk memasukkan objek ke dalam bucket S3
Batasan
Batasan cloud pribadi virtual (VPC) berlaku PrivateLink untuk AWS untuk Amazon S3. Untuk informasi selengkapnya, lihat properti dan batasan titik akhir antarmuka PrivateLink serta kuota AWS ( PrivateLink dokumentasi AWS).
AWS PrivateLink untuk Amazon S3 tidak mendukung hal berikut:
Arsitektur
Tumpukan teknologi sumber
Cluster Hadoop dengan terpasang DistCp
Tumpukan teknologi target
Amazon S3
Amazon VPC
Arsitektur target

Diagram menunjukkan cara administrator Hadoop menggunakan DistCp untuk menyalin data dari lingkungan lokal melalui koneksi jaringan pribadi, seperti AWS Direct Connect, ke Amazon S3 melalui titik akhir antarmuka Amazon S3.
Alat
Layanan AWS
AWS Identity and Access Management (IAM) membantu Anda mengelola akses ke sumber daya AWS dengan aman dengan mengontrol siapa yang diautentikasi dan diberi wewenang untuk menggunakannya.
Amazon Simple Storage Service (Amazon S3) adalah layanan penyimpanan objek berbasis cloud yang membantu Anda menyimpan, melindungi, dan mengambil sejumlah data.
Amazon Virtual Private Cloud (Amazon VPC) membantu Anda meluncurkan sumber daya AWS ke jaringan virtual yang telah Anda tentukan. Jaringan virtual ini menyerupai jaringan tradisional yang akan Anda operasikan di pusat data Anda sendiri, dengan manfaat menggunakan infrastruktur AWS yang dapat diskalakan.
Alat-alat lainnya
Apache Hadoop DistCp
(salinan terdistribusi) adalah alat yang digunakan untuk menyalin antar-cluster besar dan intra-cluster. DistCp menggunakan Apache MapReduce untuk distribusi, penanganan kesalahan dan pemulihan, dan pelaporan.
Epik
| Tugas | Deskripsi | Keterampilan yang dibutuhkan |
|---|---|---|
Buat titik akhir untuk AWS PrivateLink untuk Amazon S3. |
| Administrator AWS |
Verifikasi titik akhir dan temukan entri DNS. |
| Administrator AWS |
Periksa aturan firewall dan konfigurasi perutean. | Untuk mengonfirmasi bahwa aturan firewall Anda terbuka dan konfigurasi jaringan Anda diatur dengan benar, gunakan Telnet untuk menguji titik akhir pada port 443. Contoh:
catatanJika Anda menggunakan entri Regional, pengujian yang berhasil menunjukkan bahwa DNS bergantian antara dua alamat IP yang dapat Anda lihat di tab Subnet untuk titik akhir yang Anda pilih di konsol VPC Amazon. | Administrator jaringan, administrator AWS |
Konfigurasikan resolusi nama. | Anda harus mengonfigurasi resolusi nama untuk memungkinkan Hadoop mengakses titik akhir antarmuka Amazon S3. Anda tidak dapat menggunakan nama endpoint itu sendiri. Sebaliknya, Anda harus menyelesaikan Pilih salah satu opsi konfigurasi berikut:
| Administrator AWS |
Konfigurasikan otentikasi untuk Amazon S3. | Untuk mengautentikasi ke Amazon S3 melalui Hadoop, kami menyarankan Anda mengekspor kredensi peran sementara ke lingkungan Hadoop. Untuk informasi selengkapnya, lihat Mengautentikasi dengan S3 Untuk menggunakan kredensil sementara, tambahkan kredensil sementara ke file kredensil Anda, atau jalankan perintah berikut untuk mengekspor kredensil ke lingkungan Anda:
Jika Anda memiliki kunci akses tradisional dan kombinasi tombol rahasia, jalankan perintah berikut:
catatanJika Anda menggunakan kunci akses dan kombinasi tombol rahasia, maka ubah penyedia kredensi dalam DistCp perintah dari | Administrator AWS |
Transfer data dengan menggunakan DistCp | Untuk digunakan DistCp untuk mentransfer data, jalankan perintah berikut:
catatanWilayah AWS titik akhir tidak ditemukan secara otomatis saat Anda menggunakan DistCp perintah dengan AWS PrivateLink untuk Amazon S3. Hadoop 3.3.2 dan versi yang lebih baru menyelesaikan masalah ini dengan mengaktifkan opsi untuk secara eksplisit menyetel Wilayah AWS dari bucket S3. Untuk informasi selengkapnya, lihat S3A untuk menambahkan opsi fs.s3a.endpoint.region untuk menyetel wilayah Untuk informasi lebih lanjut tentang penyedia S3A tambahan, lihat Konfigurasi Klien S3A Umum
catatanUntuk menggunakan titik akhir antarmuka dengan S3A, Anda harus membuat entri alias DNS untuk nama Regional S3 (misalnya, Jika Anda memiliki masalah tanda tangan dengan Amazon S3, tambahkan opsi untuk menggunakan penandatanganan Signature Version 4 (SigV4):
| Insinyur migrasi, administrator AWS |