AWS Glue: Cara kerjanya - AWS Glue

Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.

AWS Glue: Cara kerjanya

AWS Glue menggunakan layanan AWS lainnya untuk mengatur tugas ETL (extract, transform, and load) Anda untuk membangun gudang data dan danau data dan menghasilkan pengaliran output. AWS Glue memanggil operasi API untuk mengubah data Anda, membuat log waktu aktif, menyimpan logika tugas Anda, dan membuat pemberitahuan untuk membantu Anda memantau tugas Anda berjalan. Konsol AWS Glue menghubungkan layanan ini ke dalam aplikasi terkelola, sehingga Anda dapat fokus pada menciptakan dan memantau tugas ETL Anda. Konsol melakukan operasi pengembangan administratif dan tugas atas nama Anda. Anda menyediakan kredensial dan properti lainnya bagi AWS Glue untuk mengakses sumber data Anda dan menulis ke target data Anda.

AWS Glue mengurus penyediaan dan mengelola sumber daya yang diperlukan untuk menjalankan beban kerja Anda. Anda tidak perlu membuat infrastruktur untuk alat ETL karena AWS Glue telah melakukannya untuk Anda. Ketika sumber daya diperlukan, untuk mengurangi waktu pemulaian, AWS Glue menggunakan sebuah instans dari kolam instans hangat untuk menjalankan beban kerja Anda.

Dengan AWS Glue, Anda membuat tugas menggunakan definisi tabel di Katalog Data Anda. Tugas terdiri dari skrip yang berisi logika pemrograman yang melakukan transformasi. Anda menggunakan pemicu untuk memulai tugas baik pada jadwal atau sebagai akibat dari peristiwa tertentu. Anda menentukan di mana data target Anda berada dan data sumber mana yang mengisi target Anda. Dengan input dari Anda, AWS Glue menghasilkan kode yang diperlukan untuk men-transformasi data Anda dari sumber ke target. Anda juga dapat menyediakan skrip di konsol atau API AWS Glue untuk memproses data Anda.

Sumber data dan tujuan

AWS Glueuntuk Spark memungkinkan Anda untuk membaca dan menulis data dari berbagai sistem dan database termasuk:

  • Amazon S3

  • Amazon DynamoDB

  • Amazon Redshift

  • Amazon Relational Database Service (Amazon RDS)

  • Basis dapat diakses JDBC pihak ketiga

  • MongoDB dan Amazon DocumentDB (dengan kompatibilitas MongoDB)

  • Konektor pasar lainnya dan plugin Apache Spark

Aliran data

AWS Glueuntuk Spark dapat mengalirkan data dari sistem berikut:

  • Amazon Kinesis Data Streams

  • Apache Kafka

AWS Glue tersedia di beberapa Wilayah AWS. Untuk informasi selengkapnya, lihat AWSWilayah dan Titik Akhir di. Referensi Umum Amazon Web

Pekerjaan ETL tanpa server berjalan secara terpisah

AWS Gluemenjalankan pekerjaan ETL Anda di lingkungan tanpa server dengan mesin pilihan Anda, Spark atau Ray. AWS Gluemenjalankan pekerjaan ini pada sumber daya virtual yang disediakan dan dikelola di akun layanannya sendiri.

AWS Glue dirancang untuk melakukan hal berikut:

  • Memisahkan data pelanggan.

  • Melindungi data pelanggan saat transit dan saat tidak aktif.

  • Mengakses data pelanggan hanya jika diperlukan dalam menanggapi permintaan pelanggan, menggunakan kredensial sementara, melakukan scope-down pada kredensial, atau dengan persetujuan pelanggan, pada IAM role di akun mereka.

Selama penyediaan tugas ETL, Anda menyediakan sumber data input dan target data output di virtual private cloud (VPC) Anda. Selain itu, Anda memberikan IAM role, VPC ID, subnet ID, dan grup keamanan yang diperlukan untuk mengakses sumber data dan target. Untuk setiap tuple (ID akun pelanggan, peran IAM, ID subnet, dan grup keamanan), AWS Glue menciptakan lingkungan baru yang terisolasi di tingkat jaringan dan manajemen dari semua lingkungan lain di dalam akun layanan. AWS Glue

AWS Glue membuat antarmuka jaringan elastis di subnet Anda dengan menggunakan alamat IP privat. Pekerjaan menggunakan antarmuka jaringan elastis ini untuk mengakses sumber data dan target data Anda. Lalu lintas masuk, keluar, dan di dalam lingkungan menjalankan pekerjaan diatur oleh VPC dan kebijakan jaringan Anda dengan satu pengecualian: Panggilan yang dilakukan AWS Glue ke perpustakaan dapat mem-proxy lalu lintas AWS Glue ke operasi API melalui VPC. AWS Glue Semua panggilan API AWS Glue dicatat; dengan demikian, pemilik data dapat meng-audit akses API dengan mengaktifkan AWS CloudTrail, yang mengirimkan log audit ke akun Anda.

AWS Gluelingkungan terkelola yang menjalankan pekerjaan ETL Anda dilindungi dengan praktik keamanan yang sama diikuti oleh AWS layanan lain. Untuk gambaran umum praktik dan tanggung jawab keamanan bersama, lihat laporan resmi Pengantar Proses Keamanan AWS.