AWS Glue: Cara kerjanya - AWS Glue

Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.

AWS Glue: Cara kerjanya

AWS Glue menggunakan AWS layanan lain untuk mengatur pekerjaan Anda ETL (mengekstrak, mengubah, dan memuat) untuk membangun gudang data dan data lake dan menghasilkan aliran keluaran. AWS Glue memanggil API operasi untuk mengubah data Anda, membuat log runtime, menyimpan logika pekerjaan Anda, dan membuat notifikasi untuk membantu Anda memantau proses pekerjaan Anda. Bagian AWS Glue konsol menghubungkan layanan ini ke dalam aplikasi terkelola, sehingga Anda dapat fokus pada pembuatan dan pemantauan ETL pekerjaan Anda. Konsol melakukan operasi pengembangan administratif dan tugas atas nama Anda. Anda menyediakan kredensi dan properti lainnya ke AWS Glue untuk mengakses sumber data Anda dan menulis ke target data Anda.

AWS Glue mengurus penyediaan dan pengelolaan sumber daya yang diperlukan untuk menjalankan beban kerja Anda. Anda tidak perlu membuat infrastruktur untuk ETL alat karena AWS Glue melakukannya untuk Anda. Ketika sumber daya diperlukan, untuk mengurangi waktu startup, AWS Glue menggunakan instance dari kumpulan instance hangatnya untuk menjalankan beban kerja Anda.

Dengan AWS Glue, Anda membuat pekerjaan menggunakan definisi tabel di Katalog Data Anda. Pekerjaan terdiri dari skrip yang berisi instruksi yang menjalankan tugas transformasi data yang diinginkan. Anda menggunakan pemicu untuk memulai tugas baik pada jadwal atau sebagai akibat dari peristiwa tertentu. Anda menentukan di mana data target Anda berada dan data sumber mana yang mengisi target Anda. Berdasarkan masukan Anda, AWS Glue mengubah data Anda dari sumber ke format target. Atau, Anda juga dapat memberikan skrip khusus di AWS Glue konsol atau API untuk memproses data Anda sesuai dengan kebutuhan spesifik Anda.

Sumber data dan tujuan

AWS Glue untuk Spark memungkinkan Anda untuk membaca dan menulis data dari berbagai sistem dan database termasuk:

  • Amazon S3

  • Amazon DynamoDB

  • Amazon Redshift

  • Amazon Relational Database Service (AmazonRDS)

  • Database pihak ketiga JDBC yang dapat diakses

  • MongoDB dan Amazon DocumentDB (dengan kompatibilitas MongoDB)

  • Konektor pasar lainnya dan plugin Apache Spark

Aliran data

AWS Glue untuk Spark dapat mengalirkan data dari sistem berikut:

  • Amazon Kinesis Data Streams

  • Apache Kafka

AWS Glue tersedia di beberapa AWS Wilayah. Untuk informasi selengkapnya, lihat AWS Wilayah dan Titik Akhir di. Referensi Umum Amazon Web

ETLPekerjaan tanpa server berjalan dalam isolasi

AWS Glue menjalankan ETL pekerjaan Anda di lingkungan tanpa server dengan mesin pilihan Anda, Spark atau Ray. AWS Glue menjalankan pekerjaan ini pada sumber daya virtual yang disediakan dan dikelola di akun layanannya sendiri.

AWS Glue dirancang untuk melakukan hal berikut:

  • Memisahkan data pelanggan.

  • Melindungi data pelanggan saat transit dan saat tidak aktif.

  • Mengakses data pelanggan hanya sesuai kebutuhan dalam menanggapi permintaan pelanggan, menggunakan kredensi sementara, tercakup, atau dengan persetujuan pelanggan untuk IAM peran dalam akun mereka.

Selama penyediaan ETL pekerjaan, Anda menyediakan sumber data input dan target data keluaran di cloud pribadi virtual Anda ()VPC. Selain itu, Anda menyediakan IAM peran, VPC ID, subnet ID, dan grup keamanan yang diperlukan untuk mengakses sumber dan target data. Untuk setiap tuple (ID akun pelanggan, IAM peran, subnet ID, dan grup keamanan), AWS Glue menciptakan lingkungan baru yang terisolasi di tingkat jaringan dan manajemen dari semua lingkungan lain di dalam AWS Glue akun layanan.

Anda membuat dan mengonfigurasi AWS Glue sumber daya, seperti Katalog Data, Pekerjaan, dan Perayap dalam akun Anda. AWS Sumber daya ini kemudian dikaitkan dengan pengaturan IAM peran dan jaringan (subnet dan grup keamanan) yang Anda tentukan selama proses pembuatan.

AWS Glue membuat antarmuka jaringan elastis di subnet Anda menggunakan alamat IP pribadi. Pekerjaan menggunakan antarmuka jaringan elastis ini untuk mengakses sumber data dan target data Anda. Lalu lintas masuk, keluar, dan di dalam lingkungan yang dijalankan pekerjaan diatur oleh kebijakan Anda VPC dan jaringan dengan satu pengecualian: Panggilan dibuat ke AWS Glue perpustakaan dapat mem-proxy lalu lintas ke AWS Glue APIoperasi melalui AWS Glue VPC. Semua AWS Glue APIpanggilan dicatat; dengan demikian, pemilik data dapat mengaudit API akses dengan mengaktifkan AWS CloudTrail, yang mengirimkan log audit ke akun Anda.

AWS Glue lingkungan terkelola yang menjalankan ETL pekerjaan Anda dilindungi dengan praktik keamanan yang sama diikuti oleh AWS layanan lain. Untuk gambaran umum tentang praktik dan tanggung jawab keamanan bersama, lihat whitepaper Pengantar Proses AWS Keamanan.