Membawa data Amazon Redshift ke dalam AWS Glue Data Catalog - AWS Lake Formation

Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.

Membawa data Amazon Redshift ke dalam AWS Glue Data Catalog

Anda dapat mengelola data analitik di gudang data Amazon Redshift di AWS Glue Data Catalog (Katalog Data), dan menyatukan data lake Amazon S3 dan gudang data Amazon Redshift. Amazon Redshift adalah layanan gudang data skala petabyte yang dikelola sepenuhnya di Cloud. AWS Gudang data Amazon Redshift adalah kumpulan sumber daya komputasi yang disebut node, yang diatur ke dalam grup yang disebut cluster. Setiap klaster menjalankan mesin Amazon Redshift dan berisi satu atau lebih database.

Di Amazon Redshift, Anda dapat membuat klaster yang disediakan Amazon Redshift dan ruang nama tanpa server, dan mendaftarkannya ke Katalog Data. Dengan melakukan ini, Anda dapat menyatukan data di Amazon Redshift managed storage (RMS) dan Amazon S3 bucket, dan mengakses data dari mesin analitik yang kompatibel dengan Apache Iceberg.

Dengan mendaftarkan ruang nama dan cluster, Anda dapat memberikan akses ke data tanpa perlu menyalin atau memindahkannya. Untuk informasi selengkapnya tentang mendaftarkan cluster dan ruang nama di Amazon Redshift, lihat Mendaftarkan klaster dan ruang nama Amazon Redshift ke. AWS Glue Data Catalog

Di Amazon Redshift, Anda dapat melakukan berbagi data melalui datashares atau dengan mendaftarkan namespace dan cluster dengan Data Catalog. Dengan datashares, yang beroperasi pada tingkat objek database individual, Anda harus mengaktifkan berbagi untuk setiap tabel atau tampilan. Sebaliknya, penerbitan namespace berfungsi pada tingkat cluster atau namespace. Saat Anda mendaftarkan cluster atau namespace dengan Katalog Data, semua database dan tabel di dalamnya akan dibagikan secara otomatis, tanpa Anda harus mengonfigurasi berbagi untuk objek individual.

Di Katalog Data, Anda dapat membuat katalog federasi untuk setiap namespace atau cluster. Katalog disebut sebagai katalog federasi ketika menunjuk ke entitas di luar Katalog Data. Tabel dan tampilan di namespace Amazon Redshift dicantumkan sebagai tabel individual dalam Katalog Data. Anda dapat berbagi database dan tabel dalam katalog federasi dengan prinsipal IAM dan pengguna SAMB yang dipilih dalam akun yang sama, atau di akun lain dengan Lake Formation. Anda juga dapat menyertakan ekspresi filter baris dan kolom untuk membatasi akses ke data tertentu. Untuk informasi selengkapnya, lihat Pemfilteran data dan keamanan tingkat sel di Lake Formation.

Katalog Data mendukung hierarki metadata tiga tingkat yang terdiri dari katalog, database, dan tabel (dan tampilan). Saat Anda mendaftarkan namespace dengan Katalog Data, hierarki data Amazon Redshift dipetakan ke hierarki 3 tingkat Katalog Data sebagai berikut:

  • Namespace Amazon Redshift menjadi katalog multi-level di Katalog Data.

  • Basis data Amazon Redshift terkait terdaftar sebagai katalog di Katalog Data.

  • Skema Amazon Redshift menjadi database dalam Katalog Data.

  • Tabel Amazon Redshift menjadi tabel di Katalog Data.

Menampilkan pemetaan tingkat katalog antara namespace Amazon Redshift dan Katalog Data.

Dengan hierarki metadata tiga tingkat ini, Anda dapat mengakses tabel Amazon Redshift menggunakan notasi 3 bagian - “catalog1/catalog2.database.table” di Katalog Data. Selain itu, tim data dapat mempertahankan organisasi yang sama yang digunakan Amazon Redshift untuk mengatur tabel dalam akun Katalog Data.

Di Lake Formation, Anda dapat mengelola data dengan aman dari Amazon Redshift menggunakan kontrol akses berbutir halus untuk sumber daya Katalog Data. Dengan integrasi ini, Anda dapat mengelola, mengamankan, dan menanyakan data analitik dari satu katalog dengan mekanisme kontrol akses umum.

Untuk batasan, lihat Keterbatasan untuk membawa data gudang data Amazon Redshift ke dalam AWS Glue Data Catalog.

Manfaat utama

Mendaftarkan cluster dan ruang nama Amazon Redshift dengan dan menyatukan data di seluruh danau data Amazon S3 AWS Glue Data Catalog dan gudang data Amazon Redshift, menawarkan manfaat berikut:

  • Pengalaman kueri seragam — Kueri data dan data terkelola Amazon Redshift Anda di bucket Amazon S3 menggunakan mesin kueri apa pun yang kompatibel dengan Apache Iceberg, seperti Amazon EMR Tanpa Server dan Amazon Athena tanpa harus memindahkan atau menyalin data.

  • Akses data yang konsisten di seluruh layanan — Anda tidak perlu memperbarui nama database dan tabel di jalur data saat mengakses sumber data gabungan yang sama dari layanan AWS analitik yang berbeda, karena sumber data terdaftar di Katalog Data.

  • Kontrol akses berbutir halus — Anda dapat menerapkan izin Lake Formation untuk mengelola akses ke sumber data federasi menggunakan izin kontrol akses berbutir halus.

Peran dan tanggung jawab

Peran Tanggung jawab
Administrator klaster produsen Amazon Redshift

Mendaftarkan cluster atau namespace dengan Katalog Data.

Administrator danau data Lake Formation

Menerima undangan cluster atau namespace, membuat katalog federasi, dan memberikan akses pada katalog federasi ke prinsipal lainnya.

Lake Formation hanya membaca administrator Menemukan katalog federasi, menanyakan tabel Amazon Redshift di katalog federasi.
Peran transfer data

Amazon Redshift mengasumsikan atas nama Anda untuk mentransfer data ke dan dari bucket Amazon S3.

Berikut ini adalah langkah-langkah tingkat tinggi untuk memberi pengguna akses ke namespace Amazon Redshift:

  1. Di Amazon Redshift, administrator klaster produser mendaftarkan klaster atau namespace dengan Katalog Data.

  2. Administrator data lake menerima undangan namespace dari administrator klaster produsen Amazon Redshift, dan membuat katalog federasi di Katalog Data.

    Setelah menyelesaikan langkah ini, Anda dapat mengelola katalog namespace Amazon Redshift dalam Katalog Data.

  3. Berikan izin kepada pengguna di katalog, database, dan tabel. Anda dapat membagikan seluruh katalog namespace atau subset tabel dengan pengguna di akun yang sama atau akun lain.