Apa itu AWS Glue? - AWS Glue

Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.

Apa itu AWS Glue?

AWS Glueadalah layanan integrasi data tanpa server yang memudahkan pengguna analitik untuk menemukan, menyiapkan, memindahkan, dan mengintegrasikan data dari berbagai sumber. Anda dapat menggunakannya untuk analitik, machine learning, dan pengembangan aplikasi. Ini juga mencakup produktivitas tambahan dan perkakas operasi data untuk menulis, menjalankan pekerjaan, dan mengimplementasikan alur kerja bisnis.

DenganAWS Glue, Anda dapat menemukan dan terhubung ke lebih dari 70 sumber data yang beragam dan mengelola data Anda dalam katalog data terpusat. Anda dapat membuat, menjalankan, dan memantau pipeline ekstrak, mengubah, dan memuat (ETL) secara visual untuk memuat data ke dalam data lake Anda. Selain itu, Anda dapat segera mencari dan menanyakan data katalog menggunakan Amazon Athena, Amazon EMR, dan Amazon Redshift Spectrum.

AWS Gluemengkonsolidasikan kemampuan integrasi data utama ke dalam satu layanan. Ini termasuk penemuan data, ETL modern, pembersihan, transformasi, dan katalog terpusat. Ini juga tanpa server, yang berarti tidak ada infrastruktur untuk dikelola. Dengan dukungan fleksibel untuk semua beban kerja seperti ETL, ELT, dan streaming dalam satu layanan, AWS Glue mendukung pengguna di berbagai beban kerja dan jenis pengguna.

Juga, AWS Glue memudahkan untuk mengintegrasikan data di seluruh arsitektur Anda. Ini terintegrasi dengan layanan AWS analitik dan danau data Amazon S3. AWS Gluememiliki antarmuka integrasi dan alat penulisan pekerjaan yang mudah digunakan untuk semua pengguna, dari pengembang hingga pengguna bisnis, dengan solusi yang disesuaikan untuk beragam keahlian teknis.

Dengan kemampuan untuk menskalakan sesuai permintaan, AWS Glue membantu Anda fokus pada aktivitas bernilai tinggi yang memaksimalkan nilai data Anda. Ini menskalakan untuk ukuran data apa pun, dan mendukung semua tipe data dan varians skema. Untuk meningkatkan kelincahan dan mengoptimalkan biaya, AWS Glue menyediakan ketersediaan dan pay-as-you-go penagihan tinggi bawaan.

Untuk informasi harga, lihat Harga AWS Glue.

AWS Glue Studio

AWS Glue Studioadalah antarmuka grafis yang memudahkan untuk membuat, menjalankan, dan memantau pekerjaan integrasi data diAWS Glue. Anda dapat menyusun alur kerja transformasi data secara visual dan menjalankannya dengan mulus di mesin ETL tanpa server berbasis Apache Spark. AWS Glue

DenganAWS Glue Studio, Anda dapat membuat dan mengelola pekerjaan yang mengumpulkan, mengubah, dan membersihkan data. Anda juga dapat menggunakan AWS Glue Studio untuk memecahkan masalah dan mengedit skrip pekerjaan.

Fitur AWS Glue

AWS Gluefitur terbagi dalam tiga kategori utama:

  • Temukan dan atur data

  • Mengubah, menyiapkan, dan membersihkan data untuk analisis

  • Membangun dan memantau jaringan data

Temukan dan atur data

  • Menyatukan dan mencari di beberapa penyimpanan data — Simpan, indeks, dan cari di berbagai sumber data dan sink dengan membuat katalog semua data Anda. AWS

  • Temukan data secara otomatis — Gunakan AWS Glue crawler untuk secara otomatis menyimpulkan informasi skema dan mengintegrasikannya ke dalam file Anda. AWS Glue Data Catalog

  • Kelola skema dan izin — Validasi dan kontrol akses ke database dan tabel Anda.

  • Connect ke berbagai sumber data — Manfaatkan beberapa sumber data, baik di tempat maupun di tempat AWS, menggunakan AWS Glue koneksi untuk membangun data lake Anda.

Mengubah, menyiapkan, dan membersihkan data untuk analisis

  • Transformasi data secara visual dengan drag-and-drop antarmuka - Tentukan proses ETL Anda di editor drag-and-drop pekerjaan dan buat kode secara otomatis untuk mengekstrak, mengubah, dan memuat data Anda.

  • Bangun jaringan ETL yang kompleks dengan penjadwalan pekerjaan sederhana — Memanggil AWS Glue pekerjaan sesuai jadwal, sesuai permintaan, atau berdasarkan suatu acara.

  • Bersihkan dan ubah data streaming dalam perjalanan - Aktifkan konsumsi data berkelanjutan, dan bersihkan serta ubah dalam perjalanan. Ini membuatnya tersedia untuk analisis dalam hitungan detik di penyimpanan data target Anda.

  • Hapus duplikat dan bersihkan data dengan pembelajaran mesin bawaan — Bersihkan dan siapkan data Anda untuk dianalisis tanpa menjadi ahli pembelajaran mesin dengan menggunakan fitur ini. FindMatches Fitur ini menghapus duplikasi dan menemukan catatan yang tidak cocok satu sama lain.

  • Notebook pekerjaan bawaan — notebook AWS Glue pekerjaan menyediakan notebook tanpa server dengan pengaturan minimal AWS Glue sehingga Anda dapat memulai dengan cepat.

  • Edit, debug, dan uji kode ETL — Dengan sesi AWS Glue interaktif, Anda dapat mengeksplorasi dan menyiapkan data secara interaktif. Anda dapat menjelajahi, bereksperimen, dan memproses data secara interaktif menggunakan IDE atau notebook pilihan Anda.

  • Menentukan, mendeteksi, dan memulihkan data sensitif — deteksi data AWS Glue sensitif memungkinkan Anda menentukan, mengidentifikasi, dan memproses data sensitif di pipeline data Anda dan di data lake Anda.

Membangun dan memantau jaringan data

  • Secara otomatis menskalakan berdasarkan beban kerja — Menskalakan sumber daya secara dinamis ke atas dan ke bawah berdasarkan beban kerja. Ini menugaskan pekerja untuk pekerjaan hanya ketika dibutuhkan.

  • Otomatiskan pekerjaan dengan pemicu berbasis peristiwa — Mulai crawler atau AWS Glue pekerjaan dengan pemicu berbasis peristiwa, dan rancang rantai pekerjaan dan perayap dependen.

  • Jalankan dan pantau pekerjaan - AWS Glue Jalankan pekerjaan dengan mesin pilihan Anda, Spark atau Ray. Pantau mereka dengan alat pemantauan otomatis, wawasan AWS Glue pekerjaan, dan AWS CloudTrail. Tingkatkan pemantauan Anda terhadap pekerjaan yang didukung Spark dengan Apache Spark UI.

  • Tentukan alur kerja untuk ETL dan aktivitas integrasi — Tentukan alur kerja untuk ETL dan aktivitas integrasi untuk beberapa crawler, pekerjaan, dan pemicu.

Belajar tentang inovasi di AWS Glue

Pelajari tentang inovasi terbaru AWS Glue dan dengarkan bagaimana pelanggan menggunakan AWS Glue untuk memungkinkan persiapan data swalayan di seluruh organisasi mereka.

Pelajari bagaimana skala pelanggan AWS Glue melampaui pengaturan tradisional dan cara mereka mengonfigurasi AWS Glue pemantauan dan kinerja pekerjaan.

Mulai menggunakan AWS Glue

Kami menyarankan Anda memulai dengan bagian berikut:

Mengakses AWS Glue

Anda dapat membuat, melihat, dan mengelola AWS Glue pekerjaan Anda menggunakan antarmuka berikut:

  • AWS Gluekonsol — Menyediakan antarmuka web bagi Anda untuk membuat, melihat, dan mengelola AWS Glue pekerjaan Anda. Untuk mengakses konsol tersebut, lihat AWS Glue.

  • AWS Glue Studio— Menyediakan antarmuka grafis bagi Anda untuk membuat dan mengedit AWS Glue pekerjaan Anda secara visual. Untuk informasi lebih lanjut, lihat Apa itu AWS Glue Studio.

  • AWS Gluebagian AWS CLI Referensi - Menyediakan AWS CLI perintah yang dapat Anda gunakanAWS Glue. Untuk informasi selengkapnya, lihat AWS CLI Referensi untuk AWS Glue.

  • AWS GlueAPI - Menyediakan referensi API lengkap untuk pengembang. Untuk informasi selengkapnya, lihat AWS GlueAPI.

Pengguna AWS Glue juga menggunakan:

  • AWS Lake Formation— Layanan yang merupakan lapisan otorisasi yang menyediakan kontrol akses berbutir halus ke sumber daya di. AWS Glue Data Catalog

  • AWS GlueAWS Glue DataBrew— Alat persiapan data visual yang dapat Anda gunakan untuk membersihkan dan menormalkan data tanpa menulis kode apa pun.