Menyiapkan izin untuk format penyimpanan tabel terbuka di Lake Formation - AWS Lake Formation

Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.

Menyiapkan izin untuk format penyimpanan tabel terbuka di Lake Formation

AWS Lake Formation mendukung pengelolaan izin akses untuk Open Table Formats (OTFs) seperti Apache Iceberg, ApacheHudi, dan Linux foundation Delta Lake. Dalam tutorial ini, Anda akan belajar cara membuat Iceberg, Hudi, dan Delta Lake dengan tabel manifes symlink dalam AWS Glue Data Catalog penggunaan AWS Glue, mengatur izin berbutir halus menggunakan Lake Formation, dan kueri data menggunakan Amazon Athena.

catatan

AWS layanan analitik tidak mendukung semua format tabel transaksional. Untuk informasi selengkapnya, lihat Bekerja dengan AWS layanan lain. Tutorial ini secara manual mencakup pembuatan database baru dan tabel di Katalog Data menggunakan AWS Glue pekerjaan saja.

Tutorial ini mencakup AWS CloudFormation template untuk pengaturan cepat. Anda dapat meninjau dan menyesuaikannya sesuai dengan kebutuhan Anda.

Audiens yang dituju

Tutorial ini ditujukan untuk IAM administrator, administrator data lake, dan analis bisnis. Tabel berikut mencantumkan peran yang digunakan dalam tutorial ini untuk membuat tabel yang diatur menggunakan Lake Formation.

Peran Deskripsi
IAMAdministrator Pengguna yang dapat membuat IAM pengguna dan peran serta bucket Amazon S3. Memiliki kebijakan yang AdministratorAccess AWS dikelola.
Administrator danau data Pengguna yang dapat mengakses Katalog Data, membuat database, dan memberikan izin Lake Formation kepada pengguna lain. Memiliki IAM izin lebih sedikit daripada IAM administrator, tetapi cukup untuk mengelola data lake.
Analis bisnis Pengguna yang dapat menjalankan kueri terhadap data lake. Memiliki izin untuk menjalankan kueri.

Prasyarat

Sebelum Anda memulai tutorial ini, Anda harus memiliki Akun AWS yang dapat Anda masuk sebagai pengguna dengan izin yang benar. Untuk informasi selengkapnya, silakan lihat Mendaftar untuk Akun AWS dan Buat pengguna dengan akses administratif.

Tutorial mengasumsikan bahwa Anda terbiasa dengan IAM peran dan kebijakan. Untuk selengkapnyaIAM, lihat Panduan IAM Pengguna.

Anda perlu mengatur AWS sumber daya berikut untuk menyelesaikan tutorial ini:

  • Pengguna administrator danau data

  • Pengaturan danau data Lake Formation

  • Mesin Amazon Athena versi 3

Untuk membuat administrator data lake
  1. Masuk ke konsol Lake Formation di https://console.aws.amazon.com/lakeformation/sebagai pengguna administrator. Anda akan membuat sumber daya di Wilayah AS Timur (Virginia N.) untuk tutorial ini.

  2. Di konsol Lake Formation, di panel navigasi, di bawah Izin, pilih Peran dan tugas administratif.

  3. Pilih Pilih Administrator di bawah Administrator danau data.

  4. Di jendela pop-up, Kelola administrator danau data, di bawah IAMpengguna dan peran, pilih pengguna IAMadmin.

  5. Pilih Simpan.

Untuk mengaktifkan pengaturan data lake
  1. Buka konsol Lake Formation di https://console.aws.amazon.com/lakeformation/. Di panel navigasi, di bawah Katalog data, pilih Pengaturan. Hapus centang berikut ini:

    • Gunakan hanya kontrol IAM akses untuk database baru.

    • Gunakan hanya kontrol IAM akses untuk tabel baru di database baru.

  2. Di bawah Pengaturan versi Cross account, pilih Versi 3 sebagai versi lintas akun.

  3. Pilih Simpan.

Untuk meningkatkan mesin Amazon Athena ke versi 3
  1. Buka konsol Athena di. https://console.aws.amazon.com/athena/

  2. Pilih Workgroup dan pilih workgroup utama.

  3. Pastikan bahwa workgroup berada pada versi minimal 3. Jika tidak, edit workgroup, pilih Manual for Upgrade query engine, dan pilih versi 3.

  4. Pilih Simpan perubahan.

Langkah 1: Menyediakan sumber daya Anda

Bagian ini menunjukkan cara mengatur AWS sumber daya menggunakan AWS CloudFormation templat.

Untuk membuat sumber daya Anda menggunakan AWS CloudFormation template
  1. Masuk ke AWS CloudFormation konsol di https://console.aws.amazon.com/cloudformation sebagai IAM administrator di Wilayah AS Timur (Virginia N.).

  2. Pilih Launch Stack.

  3. Pilih Berikutnya di layar Buat tumpukan.

  4. Masukkan Nama tumpukan.

  5. Pilih Berikutnya.

  6. Di halaman berikutnya, pilih Berikutnya.

  7. Tinjau detail di halaman akhir dan pilih Saya akui yang AWS CloudFormation mungkin membuat IAM sumber daya.

  8. Pilih Buat.

    Pembuatan tumpukan bisa memakan waktu hingga dua menit.

Meluncurkan tumpukan formasi cloud menciptakan sumber daya berikut:

  • lf-otf-datalake-123456789012 - Bucket Amazon S3 untuk menyimpan data

    catatan

    Id akun yang ditambahkan ke nama bucket Amazon S3 diganti dengan id akun Anda.

  • lf-otf-tutorial-123456789012 — Amazon S3 bucket untuk menyimpan hasil kueri dan skrip pekerjaan AWS Glue

  • lficebergdb - Database Gunung Es AWS Glue

  • lfhudidb — Database Hudi AWS Glue

  • lfdeltadb - Database Delta AWS Glue

  • native-iceberg-create — AWS Glue pekerjaan yang membuat tabel Gunung Es di Katalog Data

  • native-hudi-create — AWS Glue pekerjaan yang membuat tabel Hudi di Katalog Data

  • native-delta-create — AWS Glue pekerjaan yang membuat tabel Delta di Katalog Data

  • LF- OTF - GlueServiceRole - IAM peran yang Anda berikan AWS Glue untuk menjalankan pekerjaan. Peran ini memiliki kebijakan yang diperlukan yang dilampirkan untuk mengakses sumber daya seperti Katalog Data, bucket Amazon S3, dll.

  • LF- OTF - RegisterRole - IAM peran untuk mendaftarkan lokasi Amazon S3 dengan Lake Formation. Peran ini LF-Data-Lake-Storage-Policy melekat pada peran.

  • lf-consumer-analystuser — IAM pengguna untuk menanyakan data menggunakan Athena

  • lf-consumer-analystuser-credentials — Kata sandi untuk pengguna analis data yang disimpan di AWS Secrets Manager

Setelah pembuatan tumpukan selesai, navigasikan ke tab output dan catat nilai untuk:

  • AthenaQueryResultLocation — Lokasi Amazon S3 untuk output kueri Athena

  • BusinessAnalystUserCredentials — Kata sandi untuk pengguna analis data

    Untuk mengambil nilai kata sandi:

    1. Pilih lf-consumer-analystuser-credentials nilainya dengan menavigasi ke konsol Secrets Manager.

    2. Di bagian Nilai rahasia, pilih Ambil nilai rahasia.

    3. Catat nilai rahasia untuk kata sandi.

Langkah 2: Siapkan izin untuk tabel Iceberg

Di bagian ini, Anda akan mempelajari cara membuat tabel Gunung Es di AWS Glue Data Catalog, mengatur izin data di AWS Lake Formation, dan kueri data menggunakan Amazon Athena.

Untuk membuat tabel Iceberg

Pada langkah ini, Anda akan menjalankan AWS Glue pekerjaan yang membuat tabel transaksional Iceberg di Katalog Data.

  1. Buka AWS Glue konsol https://console.aws.amazon.com/glue/di Wilayah AS Timur (Virginia N.) sebagai pengguna administrator danau data.

  2. Pilih pekerjaan dari panel navigasi kiri.

  3. Pilih native-iceberg-create.

    Gambar adalah tangkapan layar dari halaman AWS Glue pekerjaan di konsol.
  4. Di bawah Tindakan, pilih Edit pekerjaan.

  5. Di bawah Job details, perluas properti Advanced, dan centang kotak di samping Use AWS Glue Data Catalog as the Hive metastore untuk menambahkan metadata tabel di. AWS Glue Data Catalog Ini menentukan AWS Glue Data Catalog sebagai metastore untuk sumber daya Katalog Data yang digunakan dalam pekerjaan dan memungkinkan izin Lake Formation diterapkan nanti pada sumber daya katalog.

  6. Pilih Simpan.

  7. Pilih Jalankan. Anda dapat melihat status pekerjaan saat sedang berjalan.

    Untuk informasi selengkapnya tentang AWS Glue lowongan, lihat Bekerja dengan pekerjaan di AWS Glue konsol di Panduan AWS Glue Pengembang.

    Pekerjaan ini menciptakan tabel Iceberg bernama product dalam database. lficebergdb Verifikasi tabel produk di konsol Lake Formation.

Untuk mendaftarkan lokasi data dengan Lake Formation

Selanjutnya, daftarkan jalur Amazon S3 sebagai lokasi danau data Anda.

  1. Buka konsol Lake Formation di https://console.aws.amazon.com/lakeformation/sebagai pengguna administrator danau data.

  2. Di panel navigasi, di bawah Daftar dan konsumsi, pilih Lokasi data.

  3. Di kanan atas konsol, pilih Daftarkan lokasi.

  4. Pada halaman Daftar lokasi, masukkan yang berikut ini:

    • Jalur Amazon S3 - Pilih Jelajahi dan pilih. lf-otf-datalake-123456789012 Klik panah kanan (>) di sebelah lokasi root Amazon S3 untuk menavigasi ke lokasi. s3/buckets/lf-otf-datalake-123456789012/transactionaldata/native-iceberg

    • IAMperan — Pilih LF-OTF-RegisterRole sebagai IAM peran.

    • Pilih Daftar lokasi.

    Gambar adalah tangkapan layar dari halaman lokasi Lake Formation Register di konsol.

    Untuk informasi lebih lanjut tentang mendaftarkan lokasi data dengan Lake Formation, lihatMenambahkan lokasi Amazon S3 ke danau data Anda.

Untuk memberikan izin Lake Formation di tabel Gunung Es

Pada langkah ini, kami akan memberikan izin data lake kepada pengguna analis bisnis.

  1. Di bawah Izin data lake, pilih Grant.

  2. Di layar Berikan izin data, pilih, IAMpengguna, dan peran.

  3. Pilih lf-consumer-analystuser dari drop down.

    Gambar adalah tangkapan layar dari halaman izin Lake Formation di konsol.
  4. Pilih Sumber daya katalog data bernama.

  5. Untuk Database pilihlficebergdb.

  6. Untuk Tabel, pilihproduct.

    Gambar adalah tangkapan layar dari halaman izin Lake Formation di konsol.
  7. Selanjutnya, Anda dapat memberikan akses berbasis kolom dengan menentukan kolom.

    1. Di bawah Izin tabel, pilih Pilih.

    2. Di bawah Izin data, pilih Akses berbasis kolom, pilih Sertakan kolom.

    3. Pilihproduct_name,price, dan category kolom.

    4. PilihIzin.

      Gambar adalah tangkapan layar dari halaman izin Lake Formation di konsol.
Untuk menanyakan tabel Iceberg menggunakan Athena

Sekarang Anda dapat mulai menanyakan tabel Gunung Es yang Anda buat menggunakan Athena. Jika ini adalah pertama kalinya Anda menjalankan kueri di Athena, Anda perlu mengonfigurasi lokasi hasil kueri. Untuk informasi selengkapnya, lihat Menentukan lokasi hasil kueri.

  1. Keluar sebagai pengguna administrator data lake dan masuk seperti lf-consumer-analystuser di Wilayah AS Timur (Virginia N.) menggunakan kata sandi yang disebutkan sebelumnya dari AWS CloudFormation output.

  2. Buka konsol Athena di https://console.aws.amazon.com/athena/.

  3. Pilih Pengaturan dan pilih Kelola.

  4. Di kotak Lokasi hasil kueri, masukkan jalur ke bucket yang Anda buat di AWS CloudFormation output. Salin nilai AthenaQueryResultLocation (s3://lf-otf-tutorial-123456789012/athena-results/) dan pilih Simpan.

  5. Jalankan kueri berikut untuk melihat pratinjau 10 catatan yang disimpan dalam tabel Iceberg:

    select * from lficebergdb.product limit 10;

    Untuk informasi selengkapnya tentang menanyakan tabel Gunung Es menggunakan Athena, lihat Menanyakan tabel Gunung Es di Panduan Pengguna Amazon Athena.

Langkah 3: Siapkan izin untuk tabel Hudi

Di bagian ini, Anda akan mempelajari cara membuat tabel Hudi di AWS Glue Data Catalog, mengatur izin data di AWS Lake Formation, dan kueri data menggunakan Amazon Athena.

Untuk membuat tabel Hudi

Pada langkah ini, Anda akan menjalankan AWS Glue pekerjaan yang membuat tabel transaksional Hudi di Katalog Data.

  1. Masuk ke AWS Glue konsol https://console.aws.amazon.com/glue/di Wilayah AS Timur (Virginia N.)

    sebagai pengguna administrator danau data.

  2. Pilih pekerjaan dari panel navigasi kiri.

  3. Pilih native-hudi-create.

  4. Di bawah Tindakan, pilih Edit pekerjaan.

  5. Di bawah Job details, perluas properti Advanced, dan centang kotak di samping Use AWS Glue Data Catalog as the Hive metastore untuk menambahkan metadata tabel di. AWS Glue Data Catalog Ini menentukan AWS Glue Data Catalog sebagai metastore untuk sumber daya Katalog Data yang digunakan dalam pekerjaan dan memungkinkan izin Lake Formation diterapkan nanti pada sumber daya katalog.

  6. Pilih Simpan.

  7. Pilih Jalankan. Anda dapat melihat status pekerjaan saat sedang berjalan.

    Untuk informasi selengkapnya tentang AWS Glue lowongan, lihat Bekerja dengan pekerjaan di AWS Glue konsol di Panduan AWS Glue Pengembang.

    Pekerjaan ini membuat tabel Hudi (sapi) di database: lfhudidb. Verifikasi product tabel di konsol Lake Formation.

Untuk mendaftarkan lokasi data dengan Lake Formation

Selanjutnya, daftarkan jalur Amazon S3 sebagai lokasi root danau data Anda.

  1. Masuk ke konsol Lake Formation di https://console.aws.amazon.com/lakeformation/sebagai pengguna administrator danau data.

  2. Di panel navigasi, di bawah Daftar dan konsumsi, pilih Lokasi data.

  3. Di kanan atas konsol, pilih Daftarkan lokasi.

  4. Pada halaman Daftar lokasi, masukkan yang berikut ini:

    • Jalur Amazon S3 - Pilih Jelajahi dan pilih. lf-otf-datalake-123456789012 Klik panah kanan (>) di sebelah lokasi root Amazon S3 untuk menavigasi ke lokasi. s3/buckets/lf-otf-datalake-123456789012/transactionaldata/native-hudi

    • IAMperan — Pilih LF-OTF-RegisterRole sebagai IAM peran.

    • Pilih Daftar lokasi.

Untuk memberikan izin data lake pada tabel Hudi

Pada langkah ini, kami akan memberikan izin data lake kepada pengguna analis bisnis.

  1. Di bawah Izin data lake, pilih Grant.

  2. Di layar Berikan izin data, pilih, IAMpengguna, dan peran.

  3. lf-consumer-analystuserdari drop down.

  4. Pilih Sumber daya katalog data bernama.

  5. Untuk Database pilihlfhudidb.

  6. Untuk Tabel, pilihproduct.

  7. Selanjutnya, Anda dapat memberikan akses berbasis kolom dengan menentukan kolom.

    1. Di bawah Izin tabel, pilih Pilih.

    2. Di bawah Izin data, pilih Akses berbasis kolom, pilih Sertakan kolom.

    3. Pilihproduct_name,price, dan category kolom.

    4. PilihIzin.

Untuk menanyakan tabel Hudi menggunakan Athena

Sekarang mulailah menanyakan tabel Hudi yang Anda buat menggunakan Athena. Jika ini adalah pertama kalinya Anda menjalankan kueri di Athena, Anda perlu mengonfigurasi lokasi hasil kueri. Untuk informasi selengkapnya, lihat Menentukan lokasi hasil kueri.

  1. Keluar sebagai pengguna administrator data lake dan masuk seperti lf-consumer-analystuser di Wilayah AS Timur (Virginia N.) menggunakan kata sandi yang disebutkan sebelumnya dari AWS CloudFormation output.

  2. Buka konsol Athena di https://console.aws.amazon.com/athena/.

  3. Pilih Pengaturan dan pilih Kelola.

  4. Di kotak Lokasi hasil kueri, masukkan jalur ke bucket yang Anda buat di AWS CloudFormation output. Salin nilai AthenaQueryResultLocation (s3://lf-otf-tutorial-123456789012/athena-results/) dan Simpan.

  5. Jalankan kueri berikut untuk melihat pratinjau 10 catatan yang disimpan dalam tabel Hudi:

    select * from lfhudidb.product limit 10;

    Untuk informasi selengkapnya tentang menanyakan tabel Hudi, lihat bagian Menanyakan tabel Hudi di Panduan Pengguna Amazon Athena.

Langkah 4: Siapkan izin untuk tabel Delta Lake

Di bagian ini, Anda akan mempelajari cara membuat tabel Delta Lake dengan file manifes symlink di AWS Glue Data Catalog, mengatur izin data AWS Lake Formation dan kueri data menggunakan Amazon Athena.

Untuk membuat tabel Delta Lake

Pada langkah ini, Anda akan menjalankan AWS Glue pekerjaan yang membuat tabel transaksional Delta Lake di Katalog Data.

  1. Masuk ke AWS Glue konsol https://console.aws.amazon.com/glue/di Wilayah AS Timur (Virginia N.)

    sebagai pengguna administrator danau data.

  2. Pilih pekerjaan dari panel navigasi kiri.

  3. Pilih native-delta-create.

  4. Di bawah Tindakan, pilih Edit pekerjaan.

  5. Di bawah Job details, perluas properti Advanced, dan centang kotak di samping Use AWS Glue Data Catalog as the Hive metastore untuk menambahkan metadata tabel di. AWS Glue Data Catalog Ini menentukan AWS Glue Data Catalog sebagai metastore untuk sumber daya Katalog Data yang digunakan dalam pekerjaan dan memungkinkan izin Lake Formation diterapkan nanti pada sumber daya katalog.

  6. Pilih Simpan.

  7. Pilih Jalankan di bawah Tindakan.

    Pekerjaan ini menciptakan tabel Delta Lake bernama product dalam lfdeltadb database. Verifikasi product tabel di konsol Lake Formation.

Untuk mendaftarkan lokasi data dengan Lake Formation

Selanjutnya, daftarkan jalur Amazon S3 sebagai lokasi root danau data Anda.

  1. Buka konsol Lake Formation https://console.aws.amazon.com/lakeformation/di pengguna administrator danau data.

  2. Di panel navigasi, di bawah Daftar dan konsumsi, pilih Lokasi data.

  3. Di kanan atas konsol, pilih Daftarkan lokasi.

  4. Pada halaman Daftar lokasi, masukkan yang berikut ini:

    • Jalur Amazon S3 - Pilih Jelajahi dan pilih. lf-otf-datalake-123456789012 Klik panah kanan (>) di sebelah lokasi root Amazon S3 untuk menavigasi ke lokasi. s3/buckets/lf-otf-datalake-123456789012/transactionaldata/native-delta

    • IAMperan — Pilih LF-OTF-RegisterRole sebagai IAM peran.

    • Pilih Daftar lokasi.

Untuk memberikan izin data lake pada tabel Delta Lake

Pada langkah ini, kami akan memberikan izin data lake kepada pengguna analis bisnis.

  1. Di bawah Izin data lake, pilih Grant.

  2. Di layar Berikan izin data, pilih, IAMpengguna, dan peran.

  3. lf-consumer-analystuserdari drop down.

  4. Pilih Sumber daya katalog data bernama.

  5. Untuk Database pilihlfdeltadb.

  6. Untuk Tabel, pilihproduct.

  7. Selanjutnya, Anda dapat memberikan akses berbasis kolom dengan menentukan kolom.

    1. Di bawah Izin tabel, pilih Pilih.

    2. Di bawah Izin data, pilih Akses berbasis kolom, pilih Sertakan kolom.

    3. Pilihproduct_name,price, dan category kolom.

    4. PilihIzin.

Untuk menanyakan tabel Delta Lake menggunakan Athena

Sekarang mulailah menanyakan tabel Delta Lake yang Anda buat menggunakan Athena. Jika ini adalah pertama kalinya Anda menjalankan kueri di Athena, Anda perlu mengonfigurasi lokasi hasil kueri. Untuk informasi selengkapnya, lihat Menentukan lokasi hasil kueri.

  1. Keluar sebagai pengguna administrator data lake dan masuk seperti BusinessAnalystUser di Wilayah AS Timur (Virginia N.) menggunakan kata sandi yang disebutkan sebelumnya dari AWS CloudFormation output.

  2. Buka konsol Athena di https://console.aws.amazon.com/athena/.

  3. Pilih Pengaturan dan pilih Kelola.

  4. Di kotak Lokasi hasil kueri, masukkan jalur ke bucket yang Anda buat di AWS CloudFormation output. Salin nilai AthenaQueryResultLocation (s3://lf-otf-tutorial-123456789012/athena-results/) dan Simpan.

  5. Jalankan kueri berikut untuk melihat pratinjau 10 catatan yang disimpan dalam tabel Delta Lake:

    select * from lfdeltadb.product limit 10;

    Untuk informasi selengkapnya tentang menanyakan tabel Delta Lake, lihat bagian Menanyakan tabel Danau Delta di Panduan Pengguna Amazon Athena.

Langkah 5: Bersihkan AWS sumber daya

Untuk membersihkan sumber daya

Untuk mencegah biaya yang tidak diinginkan ke Anda Akun AWS, hapus AWS sumber daya yang Anda gunakan untuk tutorial ini.

  1. Masuk ke AWS CloudFormation konsol di https://console.aws.amazon.com/cloudformation sebagai administrator. IAM

  2. Hapus tumpukan formasi cloud. Tabel yang Anda buat secara otomatis dihapus dengan tumpukan.