Sumber daya - AWS Data Pipeline

Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.

Sumber daya

Dalam AWS Data Pipeline, sumber daya adalah sumber daya komputasi yang melakukan pekerjaan yang ditentukan oleh aktivitas pipa. AWS Data Pipeline mendukung jenis sumber daya berikut:

Ec2Resource

Instans EC2 yang melakukan pekerjaan yang ditentukan oleh aktivitas alur.

EmrCluster

Klaster Amazon EMR yang melakukan pekerjaan yang ditentukan oleh aktivitas alur, seperti EmrActivity.

Resource dapat berjalan di wilayah yang sama dengan set data kerjanya, bahkan wilayah yang berbeda dari AWS Data Pipeline. Untuk informasi selengkapnya, lihat Menggunakan Alur dengan Sumber Daya di Beberapa Wilayah.

Batasan sumber daya

AWS Data Pipeline skala untuk mengakomodasi sejumlah besar tugas bersamaan dan Anda dapat mengonfigurasinya untuk secara otomatis membuat sumber daya yang diperlukan untuk menangani beban kerja yang besar. Sumber daya yang dibuat secara otomatis ini berada di bawah kendali Anda dan memperhitungkan batas sumber daya akun AWS Anda. Misalnya, jika Anda mengonfigurasi AWS Data Pipeline untuk membuat klaster EMR Amazon 20-node secara otomatis untuk memproses data dan akun AWS Anda memiliki batas instans EC2 yang disetel ke 20, Anda mungkin secara tidak sengaja menghabiskan sumber daya pengisian ulang yang tersedia. Sebagai hasilnya, pertimbangkan pembatasan sumber daya ini dalam desain Anda atau tingkatkan batas akun Anda dengan sesuai. Untuk informasi selengkapnya tentang kuota layanan, lihat Kuota Layanan AWS di Referensi Umum AWS.

catatan

Batasnya adalah satu instans per objek komponen Ec2Resource.

Platform yang Didukung

Alur dapat meluncurkan sumber daya Anda ke platform berikut:

EC2-Classic

Sumber daya Anda berjalan dalam satu jaringan datar tunggal yang Anda bagikan dengan pelanggan lain.

EC2-VPC

Sumber daya Anda berjalan di virtual private cloud (VPC) yang secara logis diisolasi ke akun AWS Anda.

Akun AWS Anda dapat meluncurkan sumber daya ke kedua platform atau hanya ke EC2-VPC, berdasarkan wilayah per wilayah. Untuk informasi selengkapnya, lihat Platform yang Didukung di Panduan Pengguna Amazon EC2.

Jika akun AWS Anda hanya mendukung EC2-VPC, kami membuat VPC default untuk Anda di setiap Wilayah AWS. Secara default, kami meluncurkan sumber daya Anda ke subnet default VPC default Anda. Atau, Anda dapat membuat VPC non-default dan menentukan salah satu subnetnya saat Anda mengonfigurasi sumber daya, lalu kami meluncurkan sumber daya Anda ke subnet tertentu dari VPC non-default.

Saat Anda meluncurkan instans ke VPC, Anda harus menentukan grup keamanan yang dibuat khusus untuk VPC tersebut. Anda tidak dapat memilih grup keamanan yang Anda buat untuk VPC ketika Anda meluncurkan instans di EC2-Classic. Selain itu, Anda harus menggunakan ID grup keamanan dan bukan nama grup keamanan untuk mengidentifikasi grup keamanan untuk VPC.

Instans Spot Amazon EC2 dengan Klaster Amazon EMR dan AWS Data Pipeline

Alur dapat menggunakan Instans Spot Amazon EC2 untuk simpul tugas di sumber daya klaster Amazon EMR mereka. Secara default, alur menggunakan Instans Sesuai Permintaan. Instans Spot memungkinkan Anda menggunakan instans EC2 cadangan dan menjalankannya. Model harga Instans Spot melengkapi model harga Instans Cadangan dan Sesuai Permintaan, yang berpotensi memberikan opsi paling hemat biaya untuk memperoleh kapasitas komputasi, bergantung pada aplikasi Anda. Untuk informasi selengkapnya, lihat halaman produk Instans Spot Amazon EC2.

Saat Anda menggunakan Instans Spot, AWS Data Pipeline kirimkan harga maksimum Instans Spot ke EMR Amazon saat klaster diluncurkan. Ini secara otomatis mengalokasikan pekerjaan cluster ke jumlah node tugas Spot Instance yang Anda tentukan menggunakan bidang tersebuttaskInstanceCount. AWS Data Pipeline membatasi Instans Spot untuk node tugas untuk memastikan bahwa node inti sesuai permintaan tersedia untuk menjalankan pipeline Anda.

Anda dapat mengedit instans sumber daya alur yang gagal atau selesai untuk menambahkan Instans Spot. Saat alur meluncurkan klaster kembali, ia menggunakan Instans Spot untuk simpul tugas.

Pertimbangan Instans Spot

Saat Anda menggunakan Instans Spot dengan AWS Data Pipeline, pertimbangan berikut berlaku:

  • Instans Spot Anda dapat berakhir saat harga Instans Spot melampaui harga maksimum Anda untuk instans, atau karena alasan kapasitas Amazon EC2. Namun, Anda tidak kehilangan data karena AWS Data Pipeline menggunakan cluster dengan node inti yang selalu Instans Sesuai Permintaan dan tidak tunduk pada penghentian.

  • Instans Spot dapat memerlukan lebih banyak waktu untuk memulai karena mereka memenuhi kapasitas secara asinkron. Oleh karena itu, alur Instans Spot dapat berjalan lebih lambat daripada alur Instans Sesuai Permintaan yang setara.

  • Klaster Anda mungkin tidak berjalan jika Anda tidak menerima Instans Spot, seperti saat harga maksimum Anda terlalu rendah.