Membawa data Anda ke AWS Glue Data Catalog - AWS Lake Formation

Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.

Membawa data Anda ke AWS Glue Data Catalog

Anda dapat membuat katalog gabungan di AWS Glue Data Catalog (Katalog Data) dan menyatukan data di seluruh danau data Amazon S3 dan gudang data Amazon Redshift. Anda juga dapat mengintegrasikan data dari database operasional Anda seperti Amazon DynamoDB, dan sumber data pihak ketiga seperti PostgreSQL, BigQuery Google, MySQL, dan lainnya. Katalog Data menyediakan repositori metadata terpusat yang membuat pengelolaan dan penemuan data di seluruh sistem yang berbeda menjadi lebih mudah.

Katalog Data terintegrasi dengan lebih dari 30 sumber data eksternal melalui konektor federasi. Dengan integrasi ini, Anda dapat melakukan kueri data dari sumber eksternal ini tanpa harus membangun pipeline data untuk memasukkan AWS data terlebih dahulu.

Setelah membuat katalog data eksternal, Anda dapat menggunakan AWS Lake Formation untuk mengelola izin akses data secara terpusat di Katalog Data. Administrator data lake dapat memberikan izin akses berbutir halus ke prinsipal IAM lainnya (pengguna atau peran) dalam akun yang sama atau di seluruh akun. Prinsipal IAM kemudian dapat menanyakan data menggunakan berbagai layanan AWS seperti Athena, Amazon EMR, atau Redshift Spectrum.

Katalog Data menyediakan metode berikut untuk mengelola data dan izin pada kumpulan data eksternal dan metastor eksternal:

  • Bawa data di gudang data Amazon Redshift ke dalam AWS Glue Data Catalog — Daftarkan namespace Amazon Redshift yang ada atau cluster dengan Katalog Data, dan buat katalog federasi multi-level di Katalog Data.

    Anda dapat mengakses data Anda menggunakan mesin kueri apa pun yang kompatibel dengan spesifikasi OpenAPI katalog Apache Iceberg REST, seperti Amazon EMR Tanpa Server, dan Amazon Athena.

  • Federasi ke dalam Katalog Data dari sumber data eksternal — Hubungkan Katalog Data ke sumber data eksternal menggunakan AWS Glue koneksi, dan buat katalog federasi untuk mengelola izin akses secara terpusat pada kumpulan data menggunakan Lake Formation. Tidak diperlukan migrasi metadata ke dalam Katalog Data.

  • Integrasikan bucket Tabel Amazon S3 dengan Katalog Data (Pratinjau) — Anda dapat menerbitkan dan membuat katalog Tabel Amazon S3 sebagai objek Katalog Data dan mendaftarkan katalog sebagai lokasi data Lake Formation dari konsol Lake Formation atau menggunakan operasi API. AWS Glue

  • Buat katalog untuk mengelola tabel Amazon Redshift di Katalog Data — Anda mungkin tidak memiliki klaster produsen Amazon Redshift atau datashare Amazon Redshift yang tersedia saat ini, tetapi ingin membuat dan mengelola tabel Amazon Redshift menggunakan Katalog Data. Anda dapat memulai dengan membuat katalog AWS Glue terkelola menggunakan operasi glue:CreateCatalog API atau AWS Lake Formation konsol dengan menyetel jenis katalog sebagai Managed dan Catalog source sebagai Redshift.

  • Publikasikan datashares Amazon Redshift dengan Katalog Data — Publikasikan datashares Amazon Redshift ke Katalog Data, dan gunakan Lake Formation untuk mengelola akses data data secara terpusat dan membatasi akses pengguna.

    Anda dapat menanyakan data Anda menggunakan Amazon Redshift Spectrum.

  • Connect Data Catalog ke metastor Hive eksternal — Hubungkan Katalog Data ke metastor eksternal untuk mengelola izin akses pada kumpulan data di Amazon S3 menggunakan Lake Formation. Tidak diperlukan migrasi metadata ke dalam Katalog Data.

  • Integrasikan Lake Formation dengan AWS Data Exchange — Lake Formation mendukung lisensi akses ke data Anda melalui AWS Data Exchange. Jika Anda ingin melisensikan data Lake Formation Anda, lihat Apa yang ada AWS Data Exchange di Panduan AWS Data Exchange Pengguna.