Mengatur AWS Lake Formation - AWS Lake Formation

Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.

Mengatur AWS Lake Formation

Bagian berikut memberikan informasi tentang pengaturan Lake Formation untuk pertama kalinya. Tidak semua topik di bagian ini diperlukan untuk mulai menggunakan Lake Formation. Anda dapat menggunakan petunjuk untuk menyiapkan model izin Lake Formation untuk mengelola AWS Glue Data Catalog objek dan lokasi data yang ada di Amazon Simple Storage Service (Amazon S3).

Bagian ini menunjukkan kepada Anda cara mengatur sumber daya Lake Formation dengan dua cara berbeda:

  • Menggunakan AWS CloudFormation template

  • Menggunakan konsol Lake Formation

Untuk mengatur Lake Formation menggunakan AWS konsol, bukaBuat administrator danau data.

Siapkan sumber daya Lake Formation menggunakan AWS CloudFormation template

catatan

AWS CloudFormation Tumpukan melakukan langkah 1 hingga 6 di atas, kecuali langkah 2 dan 5. Lakukan Ubah model izin default atau gunakan mode akses hybrid dan Mengintegrasikan Pusat Identitas IAM secara manual dari konsol Lake Formation.

  1. Masuk ke AWS CloudFormation konsol di https://console.aws.amazon.com/cloudformation sebagai administrator IAM di Wilayah AS Timur (Virginia N.).

  2. Pilih Launch Stack.

  3. Pilih Berikutnya di layar Buat tumpukan.

  4. Masukkan Nama tumpukan.

  5. Untuk DatalakeAdminNamedan DatalakeAdminPassword, masukkan nama pengguna dan kata sandi Anda untuk pengguna admin danau data.

  6. Untuk DatalakeUser1Name dan DatalakeUser1Password, masukkan nama pengguna dan kata sandi Anda untuk pengguna analis danau data.

  7. Untuk DataLakeBucketName, masukkan nama bucket baru Anda yang akan dibuat.

  8. Pilih Selanjutnya.

  9. Di halaman berikutnya, pilih Berikutnya.

  10. Tinjau detail di halaman akhir dan pilih Saya akui yang AWS CloudFormation mungkin membuat sumber daya IAM.

  11. Pilih Buat.

    Pembuatan tumpukan bisa memakan waktu hingga dua menit.

Pembersihan sumber daya

Jika Anda ingin membersihkan sumber daya AWS CloudFormation tumpukan:

  1. Hapus registrasi bucket Amazon S3 yang dibuat dan didaftarkan tumpukan Anda sebagai lokasi data lake.

  2. Hapus AWS CloudFormation tumpukan. Ini akan menghapus semua sumber daya yang dibuat oleh tumpukan.

Buat administrator danau data

Administrator data lake pada awalnya adalah satu-satunya pengguna atau peran AWS Identity and Access Management (IAM) yang dapat memberikan izin Lake Formation pada lokasi data dan sumber daya Katalog Data kepada prinsipal mana pun (termasuk mandiri). Untuk informasi selengkapnya tentang kemampuan administrator data lake, lihatIzin Lake Formation Implisit. Secara default, Lake Formation memungkinkan Anda membuat hingga 30 administrator danau data.

Anda dapat membuat administrator danau data menggunakan konsol Lake Formation atau PutDataLakeSettings pengoperasian Lake Formation API.

Izin berikut diperlukan untuk membuat administrator danau data. AdministratorPengguna memiliki izin ini secara implisit.

  • lakeformation:PutDataLakeSettings

  • lakeformation:GetDataLakeSettings

Jika Anda memberikan AWSLakeFormationDataAdmin kebijakan kepada pengguna, pengguna tersebut tidak akan dapat membuat pengguna administrator Lake Formation tambahan.

Untuk membuat administrator danau data (konsol)
  1. Jika pengguna yang akan menjadi administrator danau data belum ada, gunakan konsol IAM untuk membuatnya. Jika tidak, pilih pengguna yang sudah ada yang akan menjadi administrator danau data.

    catatan

    Kami menyarankan Anda untuk tidak memilih pengguna administratif IAM (pengguna dengan kebijakan AdministratorAccess AWS terkelola) untuk menjadi administrator data lake.

    Lampirkan kebijakan AWS terkelola berikut ke pengguna:

    Kebijakan Wajib? Catatan
    AWSLakeFormationDataAdmin Wajib Izin administrator danau data dasar. Kebijakan AWS terkelola ini berisi penolakan eksplisit untuk operasi Lake Formation API, PutDataLakeSetting yang membatasi pengguna untuk membuat administrator data lake baru.
    AWSGlueConsoleFullAccess, CloudWatchLogsReadOnlyAccess Opsional Lampirkan kebijakan ini jika administrator data lake akan memecahkan masalah alur kerja yang dibuat dari cetak biru Lake Formation. Kebijakan ini memungkinkan administrator data lake untuk melihat informasi pemecahan masalah di AWS Glue konsol dan konsol. Amazon CloudWatch Logs Untuk informasi tentang alur kerja, lihatMengimpor data menggunakan alur kerja di Lake Formation.
    AWSLakeFormationCrossAccountManager Opsional Lampirkan kebijakan ini untuk memungkinkan administrator data lake memberikan dan mencabut izin lintas akun pada sumber daya Katalog Data. Untuk informasi selengkapnya, lihat Berbagi data lintas akun di Lake Formation.
    AmazonAthenaFullAccess Opsional Lampirkan kebijakan ini jika administrator data lake akan menjalankan kueri. Amazon Athena
  2. Lampirkan kebijakan inline berikut, yang memberikan izin administrator data lake untuk membuat peran terkait layanan Lake Formation. Nama yang disarankan untuk kebijakan tersebut adalahLakeFormationSLR.

    Peran terkait layanan memungkinkan administrator data lake untuk lebih mudah mendaftarkan lokasi Amazon S3 dengan Lake Formation. Untuk informasi lebih lanjut tentang peran terkait layanan Lake Formation, lihat. Menggunakan peran terkait layanan untuk Lake Formation

    penting

    Dalam semua kebijakan berikut, ganti <account-id>dengan nomor AWS akun yang valid.

    { "Version": "2012-10-17", "Statement": [ { "Effect": "Allow", "Action": "iam:CreateServiceLinkedRole", "Resource": "*", "Condition": { "StringEquals": { "iam:AWSServiceName": "lakeformation.amazonaws.com" } } }, { "Effect": "Allow", "Action": [ "iam:PutRolePolicy" ], "Resource": "arn:aws:iam::<account-id>:role/aws-service-role/lakeformation.amazonaws.com/AWSServiceRoleForLakeFormationDataAccess" } ] }
  3. (Opsional) Lampirkan kebijakan PassRole inline berikut kepada pengguna. Kebijakan ini memungkinkan administrator data lake untuk membuat dan menjalankan alur kerja. iam:PassRoleIzin memungkinkan alur kerja untuk mengambil peran LakeFormationWorkflowRole untuk membuat crawler dan pekerjaan, dan untuk melampirkan peran ke crawler dan pekerjaan yang dibuat. Nama yang disarankan untuk kebijakan tersebut adalahUserPassRole.

    penting

    Ganti <account-id>dengan nomor AWS akun yang valid.

    { "Version": "2012-10-17", "Statement": [ { "Sid": "PassRolePermissions", "Effect": "Allow", "Action": [ "iam:PassRole" ], "Resource": [ "arn:aws:iam::<account-id>:role/LakeFormationWorkflowRole" ] } ] }
  4. (Opsional) Lampirkan kebijakan inline tambahan ini jika akun Anda akan memberikan atau menerima izin Lake Formation lintas akun. Kebijakan ini memungkinkan administrator data lake untuk melihat dan menerima AWS Resource Access Manager (AWS RAM) undangan berbagi sumber daya. Juga, untuk administrator data lake di akun AWS Organizations manajemen, kebijakan tersebut mencakup izin untuk mengaktifkan hibah lintas akun kepada organisasi. Untuk informasi selengkapnya, lihat Berbagi data lintas akun di Lake Formation.

    Nama yang disarankan untuk kebijakan tersebut adalahRAMAccess.

    { "Version": "2012-10-17", "Statement": [ { "Effect": "Allow", "Action": [ "ram:AcceptResourceShareInvitation", "ram:RejectResourceShareInvitation", "ec2:DescribeAvailabilityZones", "ram:EnableSharingWithAwsOrganization" ], "Resource": "*" } ] }
  5. Buka AWS Lake Formation konsol di https://console.aws.amazon.com/lakeformation/ dan masuk sebagai pengguna administrator yang Anda buat Buat pengguna dengan akses administratif atau sebagai pengguna dengan kebijakan AWS terkelola AdministratorAccess pengguna.

  6. Jika jendela Selamat Datang di Lake Formation muncul, pilih pengguna IAM yang Anda buat atau pilih di Langkah 1, lalu pilih Memulai.

  7. Jika Anda tidak melihat jendela Selamat Datang di Lake Formation, lakukan langkah-langkah berikut untuk mengonfigurasi Administrator Lake Formation.

    1. Di panel navigasi, di bawah Administrator, pilih Peran dan tugas administratif. Di bagian Administrator data lake di halaman konsol, pilih Tambah.

    2. Di kotak dialog Tambah administrator, di bawah Jenis akses, pilih Administrator danau data.

    3. Untuk pengguna dan peran IAM, pilih pengguna IAM yang Anda buat atau pilih di Langkah 1, lalu pilih Simpan.

Ubah model izin default atau gunakan mode akses hybrid

Lake Formation dimulai dengan pengaturan “Gunakan hanya kontrol akses IAM” yang diaktifkan untuk kompatibilitas dengan AWS Glue Data Catalog perilaku yang ada. Pengaturan ini memungkinkan Anda mengelola akses ke data di data lake dan metadatanya melalui kebijakan IAM dan kebijakan bucket Amazon S3.

Untuk memudahkan transisi izin data lake dari model IAM dan Amazon S3 ke izin Lake Formation, kami sarankan Anda untuk menggunakan mode akses hybrid untuk Katalog Data. Dengan mode akses hybrid, Anda memiliki jalur tambahan di mana Anda dapat mengaktifkan izin Lake Formation untuk kumpulan pengguna tertentu tanpa mengganggu pengguna atau beban kerja lain yang ada.

Untuk informasi selengkapnya, lihat Mode akses hibrid.

Nonaktifkan pengaturan default untuk memindahkan semua pengguna tabel yang ada ke Lake Formation dalam satu langkah.

penting

Jika Anda memiliki AWS Glue Data Catalog database dan tabel yang ada, jangan ikuti instruksi di bagian ini. Sebaliknya, ikuti instruksi diMemutakhirkan izin AWS Glue data ke model AWS Lake Formation.

Awas

Jika Anda memiliki otomatisasi yang membuat database dan tabel di Katalog Data, langkah-langkah berikut dapat menyebabkan pekerjaan otomatisasi dan hilir ekstrak, transformasi, dan pemuatan (ETL) gagal. Lanjutkan hanya setelah Anda memodifikasi proses yang ada atau memberikan izin Formasi Danau eksplisit ke kepala sekolah yang diperlukan. Untuk informasi tentang izin Lake Formation, lihatReferensi izin Lake Formation.

Untuk mengubah pengaturan Katalog Data default
  1. Lanjutkan di konsol Lake Formation di https://console.aws.amazon.com/lakeformation/. Pastikan Anda masuk sebagai pengguna administrator yang Anda buat Buat pengguna dengan akses administratif atau sebagai pengguna dengan kebijakan AdministratorAccess AWS terkelola.

  2. Ubah pengaturan Katalog Data:

    1. Di panel navigasi, di bawah Administrasi, pilih Pengaturan Katalog Data.

    2. Kosongkan kedua kotak centang dan pilih Simpan.

      Kotak dialog pengaturan Katalog Data memiliki subtitle “Izin default untuk database dan tabel yang baru dibuat,” dan memiliki dua kotak centang, yang dijelaskan dalam teks.
  3. Mencabut IAMAllowedPrincipals izin untuk pembuat basis data.

    1. Di panel navigasi, di bawah Administrasi, pilih Peran dan tugas administratif.

    2. Di halaman Konsol peran dan tugas administratif, di bagian Pembuat basis data, pilih IAMAllowedPrincipals grup, lalu pilih Batalkan.

      Kotak dialog Cabut izin muncul, menunjukkan bahwa IAMAllowedPrincipals memiliki izin Buat database.

    3. Pilih Cabut.

Tetapkan izin untuk pengguna Lake Formation

Buat pengguna untuk memiliki akses ke danau data di AWS Lake Formation. Pengguna ini memiliki izin hak istimewa paling sedikit untuk menanyakan data lake.

Untuk informasi selengkapnya tentang membuat pengguna atau grup, lihat identitas IAM di Panduan Pengguna IAM.

Untuk melampirkan izin ke pengguna non-administrator untuk mengakses data Lake Formation
  1. Buka konsol IAM di https://console.aws.amazon.com/iam dan masuk sebagai pengguna administrator yang Anda buat Buat pengguna dengan akses administratif atau sebagai pengguna dengan kebijakan AdministratorAccess AWS terkelola.

  2. Pilih Pengguna atau Grup Pengguna.

  3. Dalam daftar, pilih nama pengguna atau grup untuk menyematkan kebijakan.

    Pilih Izin.

  4. Pilih Tambahkan izin, dan pilih Lampirkan kebijakan secara langsung. Masukkan Athena di bidang teks Kebijakan filter. Dalam daftar hasil, centang kotak untukAmazonAthenaFullAccess.

  5. Pilih tombol Buat kebijakan. Di halaman Buat kebijakan, pilih tab JSON. Salin dan tempel kode berikut ke editor kebijakan.

    { "Version": "2012-10-17", "Statement": [ { "Effect": "Allow", "Action": [ "lakeformation:GetDataAccess", "glue:GetTable", "glue:GetTables", "glue:SearchTables", "glue:GetDatabase", "glue:GetDatabases", "glue:GetPartitions", "lakeformation:GetResourceLFTags", "lakeformation:ListLFTags", "lakeformation:GetLFTag", "lakeformation:SearchTablesByLFTags", "lakeformation:SearchDatabasesByLFTags" ], "Resource": "*" } ] }
  6. Pilih tombol Berikutnya di bagian bawah hingga Anda melihat halaman Kebijakan ulasan. Masukkan nama untuk kebijakan, misalnya,DatalakeUserBasic. Pilih Buat kebijakan, lalu tutup tab Kebijakan atau jendela browser.

Konfigurasikan lokasi Amazon S3 untuk data lake Anda

Untuk menggunakan Lake Formation untuk mengelola dan mengamankan data di danau data Anda, Anda harus terlebih dahulu mendaftarkan lokasi Amazon S3. Saat Anda mendaftarkan lokasi, jalur Amazon S3 dan semua folder di bawah jalur tersebut terdaftar, yang memungkinkan Lake Formation menerapkan izin tingkat penyimpanan. Saat pengguna meminta data dari mesin terintegrasi seperti Amazon Athena, Lake Formation menyediakan akses data daripada menggunakan izin pengguna.

Saat mendaftarkan lokasi, Anda menentukan peran IAM yang memberikan izin baca/tulis di lokasi tersebut. Lake Formation mengasumsikan peran itu saat memasok kredensi sementara ke AWS layanan terintegrasi yang meminta akses ke data di lokasi Amazon S3 yang terdaftar. Anda dapat menentukan peran terkait layanan Lake Formation (SLR) atau membuat peran Anda sendiri.

Gunakan peran khusus dalam situasi berikut:

Peran yang Anda pilih harus memiliki izin yang diperlukan, seperti yang dijelaskan dalamPersyaratan untuk peran yang digunakan untuk mendaftarkan lokasi. Untuk petunjuk tentang cara mendaftarkan lokasi Amazon S3, lihat. Menambahkan lokasi Amazon S3 ke danau data Anda

(Opsional) Pengaturan penyaringan data eksternal

Jika Anda ingin menganalisis dan memproses data di danau data Anda menggunakan mesin kueri pihak ketiga, Anda harus memilih untuk mengizinkan mesin eksternal mengakses data yang dikelola oleh Lake Formation. Jika Anda tidak ikut serta, mesin eksternal tidak akan dapat mengakses data di lokasi Amazon S3 yang terdaftar di Lake Formation.

Lake Formation mendukung izin tingkat kolom untuk membatasi akses ke kolom tertentu dalam tabel. Layanan analitik terintegrasi seperti Amazon Athena, Amazon Redshift Spectrum, dan Amazon EMR mengambil metadata tabel yang tidak difilter dari. AWS Glue Data Catalog Pemfilteran kolom yang sebenarnya dalam tanggapan kueri adalah tanggung jawab layanan terintegrasi. Adalah tanggung jawab administrator pihak ketiga untuk menangani izin dengan benar untuk menghindari akses tidak sah ke data.

Untuk memilih untuk mengizinkan mesin pihak ketiga mengakses dan memfilter data (konsol)
  1. Lanjutkan di konsol Lake Formation di https://console.aws.amazon.com/lakeformation/. Pastikan Anda masuk sebagai kepala sekolah yang memiliki izin IAM pada operasi Lake Formation PutDataLakeSettings API. Pengguna administrator IAM yang Anda buat Mendaftar untuk Akun AWS memiliki izin ini.

  2. Di panel navigasi, di bawah Administrasi, pilih Pengaturan integrasi aplikasi.

  3. Pada halaman Pengaturan integrasi aplikasi, lakukan hal berikut:

    1. Centang kotak Izinkan mesin eksternal memfilter data di lokasi Amazon S3 yang terdaftar di Lake Formation.

    2. Masukkan nilai tag Sesi yang ditentukan untuk mesin pihak ketiga.

    3. Untuk ID AWS akun, masukkan ID akun tempat mesin pihak ketiga diizinkan mengakses lokasi yang terdaftar di Lake Formation. Tekan Enter setelah setiap ID akun.

    4. Pilih Simpan.

Untuk mengizinkan mesin eksternal mengakses data tanpa validasi tag sesi, lihat Integrasi aplikasi untuk akses tabel penuh

(Opsional) Berikan akses ke kunci enkripsi Katalog Data

Jika AWS Glue Data Catalog dienkripsi, berikan izin AWS Identity and Access Management (IAM) pada AWS KMS kunci ke kepala sekolah mana pun yang perlu memberikan izin Lake Formation pada database dan tabel Katalog Data.

Lihat informasi selengkapnya di Panduan Developer AWS Key Management Service .

(Opsional) Buat peran IAM untuk alur kerja

Dengan AWS Lake Formation, Anda dapat mengimpor data menggunakan alur kerja yang dijalankan oleh AWS Glue crawler. Alur kerja menentukan sumber data dan jadwal untuk mengimpor data ke danau data Anda. Anda dapat dengan mudah menentukan alur kerja menggunakan cetak biru, atau templat yang disediakan Lake Formation.

Saat membuat alur kerja, Anda harus menetapkannya peran AWS Identity and Access Management (IAM) yang memberi Lake Formation izin yang diperlukan untuk menyerap data.

Prosedur berikut mengasumsikan keakraban dengan IAM.

Untuk membuat peran IAM untuk alur kerja
  1. Buka konsol IAM di https://console.aws.amazon.com/iam dan masuk sebagai pengguna administrator yang Anda buat Buat pengguna dengan akses administratif atau sebagai pengguna dengan kebijakan AdministratorAccess AWS terkelola.

  2. Di panel navigasi, pilih Peran, lalu Buat peran.

  3. Pada halaman Buat peran, pilih AWS layanan, lalu pilih Glue. Pilih Selanjutnya.

  4. Pada halaman Tambahkan izin, cari kebijakan AWSGlueServiceRoleterkelola, lalu pilih kotak centang di samping nama kebijakan dalam daftar. Kemudian lengkapi wizard Create role, beri nama peranLFWorkflowRole. Untuk menyelesaikannya, pilih Buat peran.

  5. Kembali ke halaman Peran, cari LFflowRole dan pilih nama peran.

  6. Pada halaman Ringkasan peran, di bawah tab Izin, pilih Buat kebijakan sebaris. Pada layar Buat kebijakan, arahkan ke tab JSON, dan tambahkan kebijakan sebaris berikut. Nama yang disarankan untuk kebijakan tersebut adalahLakeFormationWorkflow.

    penting

    Dalam kebijakan berikut, ganti <account-id>dengan Akun AWS nomor yang valid.

    { "Version": "2012-10-17", "Statement": [ { "Effect": "Allow", "Action": [ "lakeformation:GetDataAccess", "lakeformation:GrantPermissions" ], "Resource": "*" }, { "Effect": "Allow", "Action": ["iam:PassRole"], "Resource": [ "arn:aws:iam::<account-id>:role/LakeFormationWorkflowRole" ] } ] }

    Berikut ini adalah deskripsi singkat tentang izin dalam kebijakan ini:

    • lakeformation:GetDataAccessmemungkinkan pekerjaan yang dibuat oleh alur kerja untuk menulis ke lokasi target.

    • lakeformation:GrantPermissionsmemungkinkan alur kerja untuk memberikan SELECT izin pada tabel target.

    • iam:PassRolememungkinkan layanan untuk mengambil peran LakeFormationWorkflowRole untuk membuat crawler dan pekerjaan (contoh alur kerja), dan untuk melampirkan peran ke crawler dan pekerjaan yang dibuat.

  7. Verifikasi bahwa peran tersebut LakeFormationWorkflowRole memiliki dua kebijakan yang dilampirkan.

  8. Jika Anda menelan data yang berada di luar lokasi data lake, tambahkan kebijakan inline yang memberikan izin untuk membaca data sumber.