AWS Glue komponen - AWS Glue

Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.

AWS Glue komponen

AWS Glue menyediakan konsol dan API operasi untuk menyiapkan dan mengelola beban kerja ekstrak, transformasi, dan beban (ETL) Anda. Anda dapat menggunakan API operasi melalui beberapa bahasa khusus SDKs dan AWS Command Line Interface ()AWS CLI. Untuk informasi tentang menggunakan AWS CLI, lihat Referensi AWS CLI Perintah.

AWS Glue menggunakan AWS Glue Data Catalog untuk menyimpan metadata tentang sumber data, transformasi, dan target. Katalog Data adalah pengganti drop-in untuk Apache Hive Metastore. AWS Glue Jobs system Ini menyediakan infrastruktur terkelola untuk mendefinisikan, menjadwalkan, dan menjalankan ETL operasi pada data Anda. Untuk informasi lebih lanjut tentang AWS Glue API, lihatAWS Glue API.

AWS Glue konsol

Anda menggunakan AWS Glue konsol untuk menentukan dan mengatur alur kerja Anda. ETL Konsol memanggil beberapa API operasi di AWS Glue Data Catalog dan AWS Glue Jobs system untuk melakukan tugas-tugas berikut:

  • Tentukan AWS Glue objek seperti pekerjaan, tabel, crawler, dan koneksi.

  • Menentukan jadwal kapan crawler berjalan.

  • Menentukan peristiwa atau jadwal untuk pemicu tugas.

  • Cari dan filter daftar AWS Glue objek.

  • Mengedit skrip transformasi.

AWS Glue Data Catalog

AWS Glue Data Catalog Ini adalah penyimpanan metadata teknis persisten Anda di Cloud. AWS

Setiap AWS akun memiliki satu AWS Glue Data Catalog per AWS Wilayah. Setiap Katalog Data adalah kumpulan tabel yang sangat skalabel yang disusun ke dalam database. Tabel adalah representasi metadata dari kumpulan data terstruktur atau semi-terstruktur yang disimpan dalam sumber seperti AmazonRDS, Apache Hadoop Distributed File System, Amazon Service, dan lain-lain. OpenSearch AWS Glue Data Catalog Ini menyediakan repositori seragam di mana sistem yang berbeda dapat menyimpan dan menemukan metadata untuk melacak data dalam silo data. Anda kemudian dapat menggunakan metadata untuk menanyakan dan mengubah data tersebut secara konsisten di berbagai aplikasi.

Anda menggunakan Katalog Data bersama dengan AWS Identity and Access Management kebijakan dan Lake Formation untuk mengontrol akses ke tabel dan database. Dengan melakukan ini, Anda dapat mengizinkan grup yang berbeda di perusahaan Anda untuk mempublikasikan data dengan aman ke organisasi yang lebih luas sambil melindungi informasi sensitif dengan cara yang sangat terperinci.

Katalog Data, bersama dengan CloudTrail dan Lake Formation, juga memberi Anda kemampuan audit dan tata kelola yang komprehensif, dengan pelacakan perubahan skema dan kontrol akses data. Hal ini akan membantu memastikan bahwa data tidak dimodifikasi dengan tidak semestinya atau tidak dibagi dengan tidak disengaja.

Untuk informasi tentang mengamankan dan mengaudit AWS Glue Data Catalog, lihat:

Berikut ini adalah AWS layanan lain dan proyek sumber terbuka yang menggunakan: AWS Glue Data Catalog

AWS Glue crawler dan pengklasifikasi

AWS Glue juga memungkinkan Anda mengatur crawler yang dapat memindai data di semua jenis repositori, mengklasifikasikannya, mengekstrak informasi skema darinya, dan menyimpan metadata secara otomatis di file. AWS Glue Data Catalog Kemudian AWS Glue Data Catalog dapat digunakan untuk memandu ETL operasi.

Untuk informasi tentang cara mengatur crawler dan pengklasifikasi, lihat Menggunakan crawler untuk mengisi Katalog Data . Untuk informasi tentang cara memprogram crawler dan pengklasifikasi menggunakan AWS Glue API, lihat. API Crawler dan Pengklasifikasi

AWS Glue ETLoperasi

Menggunakan metadata dalam Katalog Data, AWS Glue dapat secara otomatis menghasilkan Scala atau PySpark (Python API untuk Apache Spark) skrip dengan AWS Glue ekstensi yang dapat Anda gunakan dan modifikasi untuk melakukan berbagai operasi. ETL Sebagai contoh, Anda dapat mengekstrak, membersihkan, dan mengubah data mentah, dan kemudian menyimpan hasilnya dalam repositori yang berbeda, di mana data tersebut dapat di-kueri dan dianalisis. Skrip semacam itu dapat mengubah CSV file menjadi bentuk relasional dan menyimpannya di Amazon Redshift.

Untuk informasi selengkapnya tentang cara menggunakan AWS Glue ETL kemampuan, lihatPemrograman skrip Spark.

Streaming ETL di AWS Glue

AWS Glue memungkinkan Anda untuk melakukan ETL operasi pada streaming data menggunakan pekerjaan yang terus berjalan. AWS Glue streaming ETL dibangun di atas mesin Streaming Terstruktur Apache Spark, dan dapat menelan aliran dari Amazon Kinesis Data Streams, Apache Kafka, dan Amazon Managed Streaming untuk Apache Kafka (Amazon). MSK Streaming ETL dapat membersihkan dan mengubah data streaming dan memuatnya ke Amazon S3 atau penyimpanan JDBC data. Gunakan Streaming ETL AWS Glue untuk memproses data peristiwa seperti aliran IoT, clickstream, dan log jaringan.

Jika Anda tahu skema sumber data streaming, Anda dapat menentukannya dalam tabel Katalog Data. Jika tidak, Anda dapat mengaktifkan deteksi skema dalam ETL pekerjaan streaming. Tugas kemudian akan secara otomatis menentukan skema dari data yang masuk.

ETLPekerjaan streaming dapat menggunakan transformasi dan transformasi AWS Glue bawaan yang asli dari Apache Spark Structured Streaming. Untuk informasi selengkapnya, lihat Operasi pada streaming DataFrames /Datasets di situs web Apache Spark.

Untuk informasi selengkapnya, lihat Lowongan kerja Streaming ETL di AWS Glue.

Sistem AWS Glue pekerjaan

AWS Glue Jobs system Menyediakan infrastruktur terkelola untuk mengatur alur kerja Anda. ETL Anda dapat membuat pekerjaan AWS Glue yang mengotomatiskan skrip yang Anda gunakan untuk mengekstrak, mengubah, dan mentransfer data ke lokasi yang berbeda. Tugas dapat dijadwalkan dan dirangkai, atau mereka dapat dipicu oleh peristiwa seperti peristiwa datangnya data baru.

Untuk informasi lebih lanjut tentang menggunakan AWS Glue Jobs system, lihatPemantauan AWS Glue. Untuk informasi tentang pemrograman menggunakan AWS Glue Jobs system API, lihatAPI Tugas.

ETLKomponen visual

AWS Glue memungkinkan Anda membuat ETL pekerjaan melalui kanvas visual yang dapat Anda manipulasi.

Tangkapan layar menunjukkan panel sumber daya ditutup.

ETLmenu pekerjaan

Opsi menu di bagian atas kanvas memungkinkan Anda mengakses berbagai tampilan dan detail konfigurasi tentang pekerjaan Anda.

  • Visual - Kanvas editor pekerjaan Visual. Di sinilah Anda dapat menambahkan node untuk membuat pekerjaan.

  • Script — Representasi skrip dari ETL pekerjaan Anda. AWS Glue menghasilkan skrip berdasarkan representasi visual dari pekerjaan Anda. Anda juga dapat mengedit skrip Anda atau mengunduhnya.

    catatan

    Jika Anda memilih untuk mengedit skrip, pengalaman penulisan pekerjaan secara permanen dikonversi ke mode skrip saja. Setelah itu, Anda tidak dapat menggunakan editor visual untuk mengedit pekerjaan lagi. Anda harus menambahkan semua sumber pekerjaan, transformasi, dan target, dan membuat semua perubahan yang Anda butuhkan dengan editor visual sebelum memilih untuk mengedit skrip.

  • Job details — Tab Job details memungkinkan Anda mengonfigurasi pekerjaan dengan menyetel properti pekerjaan. Ada properti dasar, seperti nama dan deskripsi pekerjaan Anda, IAM peran, jenis pekerjaan, versi AWS Glue, bahasa, jenis pekerja, jumlah pekerja, bookmark pekerjaan, eksekusi fleksibel, jumlah pensiunan, dan batas waktu pekerjaan, dan ada properti lanjutan, seperti koneksi, perpustakaan, parameter pekerjaan, dan tag.

  • Berjalan - Setelah pekerjaan Anda berjalan, tab ini dapat diakses untuk melihat pekerjaan Anda sebelumnya berjalan.

  • Kualitas data — Kualitas data mengevaluasi dan memantau kualitas aset data Anda. Anda dapat mempelajari lebih lanjut tentang cara menggunakan kualitas data pada tab ini dan menambahkan transformasi kualitas data ke pekerjaan Anda.

  • Jadwal — Pekerjaan yang telah Anda jadwalkan muncul di tab ini. Jika tidak ada jadwal yang dilampirkan pada pekerjaan ini, maka tab ini tidak dapat diakses.

  • Kontrol versi — Anda dapat menggunakan Git dengan pekerjaan Anda dengan mengonfigurasi pekerjaan Anda ke repositori Git.

ETLPanel visual

Saat Anda bekerja di kanvas, beberapa panel tersedia untuk membantu Anda mengonfigurasi node, atau membantu Anda melihat pratinjau data dan melihat skema keluaran.

  • Properties - Panel Properties muncul ketika Anda memilih node di kanvas Anda.

  • Pratinjau data - Panel pratinjau data menyediakan pratinjau output data sehingga Anda dapat membuat keputusan sebelum menjalankan pekerjaan dan memeriksa output Anda.

  • Skema keluaran — Tab skema Output memungkinkan Anda untuk melihat dan mengedit skema node transformasi Anda.

Mengubah ukuran panel

Anda dapat mengubah ukuran panel Properties di sisi kanan layar dan panel bawah yang berisi tab pratinjau Data dan skema Output dengan mengklik tepi panel dan menyeretnya ke kiri dan kanan atau ke atas dan ke bawah.

  • Panel properti - Ubah ukuran panel properti dengan mengklik dan menyeret tepi kanvas di sisi kanan layar dan seret ke kiri untuk memperluas lebarnya. Secara default, panel diciutkan dan ketika sebuah node dipilih, panel properti terbuka ke ukuran defaultnya.

  • Pratinjau data dan panel skema Output - Ubah ukuran panel bawah dengan mengklik dan menyeret tepi bawah kanvas di bagian bawah layar dan seret ke atas untuk memperluas ketinggiannya. Secara default, panel diciutkan dan ketika sebuah node dipilih, panel bawah terbuka ke ukuran defaultnya.

Kanvas Job

Anda dapat menambahkan, menghapus, dan memindahkan/menyusun ulang node langsung pada kanvas Visual. ETL Anggap saja sebagai ruang kerja Anda untuk membuat ETL pekerjaan yang berfungsi penuh yang dimulai dengan sumber data dan dapat diakhiri dengan target data.

Saat Anda bekerja dengan node di kanvas, Anda memiliki bilah alat yang dapat membantu Anda memperbesar dan memperkecil, menghapus node, membuat atau mengedit koneksi antar node, mengubah orientasi alur pekerjaan, dan membatalkan atau mengulang tindakan.

Tangkapan layar menunjukkan panel sumber daya ditutup.

Bilah alat mengambang ditambatkan ke ukuran kanan atas kanvas dan berisi beberapa gambar yang melakukan tindakan:

  • Ikon tata letak - Ikon pertama di bilah alat adalah ikon tata letak. Secara default, arah pekerjaan visual adalah dari atas ke bawah.Ini mengatur ulang arah pekerjaan visual Anda dengan mengatur node secara horizontal dari kiri ke kanan. Mengklik ikon tata letak lagi mengubah arah kembali ke atas ke bawah.

  • Ikon Recenter - Ikon recenter mengubah tampilan kanvas dengan memusatkannya. Anda dapat menggunakan ini dengan pekerjaan besar untuk kembali ke posisi tengah.

  • Zoom in icon — Zoom in icon memperbesar ukuran node pada kanvas.

  • Ikon zoom out - Ikon zoom out mengurangi ukuran node di kanvas.

  • Ikon sampah - Ikon sampah menghapus simpul dari pekerjaan visual. Anda harus memilih node terlebih dahulu.

  • Ikon batalkan - Ikon batalkan membalikkan tindakan terakhir yang diambil pada pekerjaan visual.

  • Ikon Redo - Ikon redo mengulangi tindakan terakhir yang diambil pada pekerjaan visual.

Menggunakan peta mini

Tangkapan layar menunjukkan tampilan dekat dari peta mini.

Panel sumber daya

Panel sumber daya berisi semua sumber data, mengubah tindakan, dan koneksi yang tersedia untuk Anda. Buka panel sumber daya di kanvas dengan mengklik ikon “+”. Ini akan membuka panel sumber daya.

Untuk menutup panel sumber daya, klik X di sudut kanan atas panel sumber daya. Ini akan menyembunyikan panel sampai Anda siap untuk membukanya lagi.

Tangkapan layar menunjukkan panel sumber daya saat terbuka.

Di bagian atas panel adalah kumpulan transformasi & data Populer. Node ini biasanya digunakan dalam AWS Glue. Pilih satu untuk menambahkannya ke kanvas. Anda juga dapat menyembunyikan Transformasi & data Populer dengan mengklik segitiga di sebelah judul Transformasi & data Populer.

Di bawah bagian Transformasi & data Populer, Anda dapat mencari transformasi dan node sumber data. Hasil muncul saat Anda mengetik. Semakin banyak huruf yang Anda tambahkan ke permintaan pencarian Anda, daftar hasil akan semakin kecil. Hasil pencarian diisi dari nama node dan/atau deskripsi. Pilih node untuk menambahkannya ke kanvas Anda.

Transformasi dan Data

Ada dua tab yang mengatur node menjadi Transforms dan Data.

Transformasi — Saat Anda memilih tab Transformasi, semua transformasi yang tersedia dapat dipilih. Pilih transformasi untuk menambahkannya ke kanvas. Anda juga dapat memilih Add Transform di bagian bawah daftar Transforms yang akan membuka halaman baru ke dokumentasi untuk membuat transformasi visual Kustom. Mengikuti langkah-langkah akan memungkinkan Anda untuk membuat transformasi Anda sendiri. Transformasi Anda kemudian akan muncul dalam daftar transformasi yang tersedia.

Data — Tab data berisi semua node untuk Sumber dan Target. Anda dapat menyembunyikan Sumber dan Target dengan mengklik segitiga di sebelah judul Sumber atau Target. Anda dapat menampilkan Sumber dan Target dengan mengklik segitiga lagi. Pilih sumber atau target node untuk menambahkannya ke kanvas. Anda juga dapat memilih Kelola Koneksi untuk menambahkan koneksi baru. Ini akan membuka halaman Konektor di konsol.