Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.
Migrasikan beban kerja dari ke AWS Data Pipeline Amazon MWAA
AWS meluncurkan AWS Data Pipeline layanan pada tahun 2012. Pada saat itu, pelanggan menginginkan layanan yang memungkinkan mereka menggunakan berbagai opsi komputasi untuk memindahkan data antara sumber data yang berbeda. Karena kebutuhan transfer data berubah dari waktu ke waktu, begitu juga solusi untuk kebutuhan tersebut. Anda sekarang memiliki opsi untuk memilih solusi yang paling sesuai dengan kebutuhan bisnis Anda. Anda dapat memigrasikan beban kerja Anda ke salah satu layanan berikut: AWS
-
Gunakan Alur Kerja Terkelola Amazon untuk Apache Airflow (Amazon MWAA) untuk mengelola orkestrasi alur kerja untuk Apache Airflow.
-
Gunakan Step Functions untuk mengatur alur kerja antara beberapa. Layanan AWS
-
Gunakan AWS Glue untuk menjalankan dan mengatur aplikasi Apache Spark.
Opsi yang Anda pilih tergantung pada beban kerja Anda saat ini. AWS Data Pipeline Topik ini menjelaskan cara bermigrasi dari AWS Data Pipeline ke Amazon MWAA.
Topik
Memilih Amazon MWAA
Amazon Managed Workflows for Apache Airflow (Amazon MWAA) adalah layanan orkestrasi terkelola untuk Apache Airflow yang memungkinkan Anda mengatur dan mengoperasikan pipeline data di cloud dalam skala besar. end-to-end Apache Airflow
Berikut ini menyoroti beberapa manfaat bermigrasi dari AWS Data Pipeline ke Amazon MWAA:
-
Peningkatan skalabilitas dan kinerja - Amazon MWAA menyediakan kerangka kerja yang fleksibel dan dapat diskalakan untuk menentukan dan mengeksekusi alur kerja. Hal ini memungkinkan pengguna untuk menangani alur kerja yang besar dan kompleks dengan mudah, dan memanfaatkan fitur seperti penjadwalan tugas dinamis, alur kerja berbasis data, dan paralelisme.
-
Pemantauan dan pencatatan yang ditingkatkan - Amazon MWAA terintegrasi dengan Amazon CloudWatch untuk meningkatkan pemantauan dan pencatatan alur kerja Anda. Amazon MWAA secara otomatis mengirimkan metrik dan log sistem ke. CloudWatch Ini berarti Anda dapat melacak kemajuan dan kinerja alur kerja Anda secara real-time, dan mengidentifikasi masalah apa pun yang muncul.
-
Integrasi yang lebih baik dengan AWS layanan dan perangkat lunak pihak ketiga — Amazon MWAA terintegrasi dengan berbagai AWS layanan lain, seperti Amazon S3,, dan AWS Glue Amazon Redshift, serta perangkat lunak pihak ketiga seperti DBT, Snowflake, dan Databricks.
Ini memungkinkan Anda memproses, dan mentransfer, data di berbagai lingkungan dan layanan. -
Alat pipa data sumber terbuka — Amazon MWAA memanfaatkan produk Apache Airflow sumber terbuka yang sama dengan yang Anda kenal. Apache Airflow adalah alat yang dibuat khusus yang dirancang untuk menangani semua aspek manajemen pipa data, termasuk konsumsi, pemrosesan, transfer, pengujian integritas, pemeriksaan kualitas, dan memastikan garis keturunan data.
-
Arsitektur modern dan fleksibel — Amazon MWAA memanfaatkan kontainerisasi dan teknologi cloud-native, tanpa server. Ini berarti lebih banyak fleksibilitas dan portabilitas, serta penyebaran dan pengelolaan lingkungan alur kerja Anda yang lebih mudah.
Arsitektur dan pemetaan konsep
AWS Data Pipeline dan Amazon MWAA memiliki arsitektur dan komponen yang berbeda, yang dapat memengaruhi proses migrasi dan cara alur kerja didefinisikan dan dijalankan. Bagian ini meninjau arsitektur dan komponen untuk kedua layanan, dan menyoroti beberapa perbedaan utama.
Keduanya AWS Data Pipeline dan Amazon MWAA adalah layanan yang dikelola sepenuhnya. Saat memigrasikan beban kerja ke Amazon MWAA, Anda mungkin perlu mempelajari konsep baru untuk memodelkan alur kerja yang ada menggunakan Apache Airflow. Namun, Anda tidak perlu mengelola infrastruktur, menambal pekerja, dan mengelola pembaruan sistem operasi.
Tabel berikut mengaitkan konsep-konsep kunci AWS Data Pipeline dengan yang ada di Amazon MWAA. Gunakan informasi ini sebagai titik awal untuk merancang rencana migrasi.
Konsep | AWS Data Pipeline | Amazon MWAA |
---|---|---|
Definisi pipa | AWS Data Pipeline menggunakan file konfigurasi berbasis JSON yang mendefinisikan alur kerja. | Amazon MWAA menggunakan Directed Acyclic |
Lingkungan eksekusi pipa | Alur kerja berjalan di EC2 instans Amazon. AWS Data Pipeline menyediakan dan mengelola instans ini atas nama Anda. | Amazon MWAA menggunakan lingkungan kontainer Amazon ECS untuk menjalankan tugas. |
Komponen pipa | Aktivitas adalah memproses tugas yang berjalan sebagai bagian dari alur kerja. | Operator |
Prasyarat berisi pernyataan kondisional yang harus benar sebelum suatu aktivitas dapat dijalankan. | Sensor |
|
Sumber daya AWS Data Pipeline mengacu pada sumber daya AWS komputasi yang melakukan pekerjaan yang ditentukan oleh aktivitas pipeline. Amazon EC2 dan Amazon EMR adalah dua sumber daya yang tersedia. | Menggunakan tugas dalam DAG, Anda dapat menentukan berbagai sumber daya komputasi, termasuk Amazon ECS, Amazon EMR, dan Amazon EKS. Amazon MWAA menjalankan operasi Python pada pekerja yang berjalan di Amazon ECS. | |
Eksekusi alur | AWS Data Pipeline mendukung penjadwalan berjalan dengan pola berbasis tarif reguler, dan berbasis cron. | Amazon MWAA mendukung penjadwalan dengan ekspresi cron |
Sebuah instance mengacu pada setiap proses pipa. | DAG run |
|
Upaya mengacu pada percobaan ulang operasi yang gagal. | Amazon MWAA mendukung percobaan ulang yang Anda tentukan baik di level DAG, atau di tingkat tugas. |
Contoh implementasi
Dalam banyak kasus, Anda akan dapat menggunakan kembali sumber daya yang saat ini Anda atur setelah AWS Data Pipeline bermigrasi ke Amazon MWAA. Daftar berikut berisi contoh implementasi menggunakan Amazon MWAA untuk kasus penggunaan yang paling umum. AWS Data Pipeline
-
Menjalankan pekerjaan EMR Amazon
(lokakarya)AWS -
Membuat plugin khusus untuk Apache Hive dan Hadoop (Panduan Pengguna Amazon MWAA)
-
Menyalin data dari S3 ke Redshift
(bengkel)AWS -
Menjalankan skrip shell pada instance Amazon ECS jarak jauh (Panduan Pengguna Amazon MWAA)
Untuk tutorial dan contoh tambahan, lihat berikut ini:
Perbandingan harga
Harga untuk AWS Data Pipeline didasarkan pada jumlah pipa, serta seberapa banyak Anda menggunakan setiap pipa. Aktivitas yang Anda jalankan lebih dari sekali sehari (frekuensi tinggi) berharga $1 per bulan per aktivitas. Aktivitas yang Anda jalankan sekali sehari atau kurang (frekuensi rendah) berharga $0,60 per bulan per aktivitas. Pipa Tidak Aktif dihargai $1 per pipa. Untuk informasi lebih lanjut, lihat halaman harga AWS Data Pipeline
Harga untuk Amazon MWAA didasarkan pada durasi waktu di mana lingkungan Apache Airflow terkelola Anda ada, dan setiap penskalaan otomatis tambahan yang diperlukan untuk menyediakan lebih banyak pekerja, atau kapasitas penjadwal. Anda membayar untuk penggunaan lingkungan Amazon MWAA Anda setiap jam (ditagih pada resolusi satu detik), dengan biaya yang bervariasi tergantung pada ukuran lingkungan. Amazon MWAA secara otomatis menskalakan jumlah pekerja berdasarkan konfigurasi lingkungan Anda. AWS menghitung biaya pekerja tambahan secara terpisah. Untuk informasi lebih lanjut tentang biaya per jam menggunakan berbagai ukuran lingkungan Amazon MWAA, lihat halaman harga Amazon MWAA
Sumber daya terkait
Untuk informasi selengkapnya dan praktik terbaik untuk menggunakan Amazon MWAA, lihat sumber daya berikut: