Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.
Apa itu AWS Lake Formation?
Selamat datang di Panduan AWS Lake Formation Pengembang.
AWS Lake Formation membantu Anda mengatur secara terpusat, mengamankan, dan berbagi data secara global untuk analitik dan pembelajaran mesin. Dengan Lake Formation, Anda dapat mengelola kontrol akses berbutir halus untuk data lake data Anda di Amazon Simple Storage Service (Amazon S3) dan metadatanya di. AWS Glue Data Catalog
Lake Formation menyediakan model izinnya sendiri yang menambah model izin IAM. Model izin Lake Formation memungkinkan akses halus ke data yang disimpan di danau data serta sumber data eksternal seperti gudang data Amazon Redshift, Amazon DynamoDB database, dan sumber data pihak ketiga melalui mekanisme hibah atau pencabutan sederhana, seperti sistem manajemen basis data relasional (RDBMS). Izin Lake Formation diberlakukan menggunakan kontrol granular di tingkat kolom, baris, dan sel di seluruh layanan AWS analitik dan pembelajaran mesin, termasuk Amazon Athena, Amazon Amazon QuickSight Redshift Spectrum, Amazon EMR, dan. AWS Glue
Dengan mode akses hibrida Lake Formation untuk AWS Glue Data Catalog (Katalog Data), Anda dapat mengamankan dan mengakses data yang dikatalogkan menggunakan izin Lake Formation dan kebijakan izin IAM untuk Amazon S3 dan tindakan. AWS Glue Dengan mode akses hybrid, administrator data dapat memasukkan izin Lake Formation secara selektif dan bertahap, dengan fokus pada satu kasus penggunaan data lake pada satu waktu.
Lake Formation juga memungkinkan Anda untuk berbagi data secara internal dan eksternal di beberapa AWS organisasi Akun AWS, atau langsung dengan prinsipal IAM di akun lain yang menyediakan akses halus ke metadata Katalog Data dan data yang mendasarinya.
Topik
Fitur Lake Formation
Lake Formation membantu Anda memecah silo data dan menggabungkan berbagai jenis data terstruktur dan tidak terstruktur ke dalam repositori terpusat. Pertama, identifikasi penyimpanan data yang ada di Amazon S3 atau database relasional dan NoSQL, dan pindahkan data ke data lake Anda. Kemudian crawl, katalog, dan siapkan data untuk analitik. Selanjutnya, berikan pengguna Anda akses layanan mandiri yang aman ke data melalui pilihan layanan analitik mereka.
Anda dapat menggunakan konsol Lake Formation untuk membuat katalog federasi multi-level di Katalog Data, dan menyatukan data di seluruh danau data Amazon S3 dan gudang data Amazon Redshift. Anda juga dapat mengintegrasikan data dari database operasional Anda seperti Amazon DynamoDB, dan sumber data pihak ketiga seperti Google BigQuery, MySQL, dan lainnya. Katalog Data menyediakan repositori metadata terpusat yang membuat pengelolaan dan penemuan data di seluruh sistem yang berbeda menjadi lebih mudah.
Untuk informasi selengkapnya, lihat Membawa data Anda ke AWS Glue Data Catalog.
Konsumsi dan manajemen data
Impor data dari database yang sudah ada AWS
Setelah Anda menentukan di mana basis data yang ada dan memberikan kredensil akses Anda, Lake Formation membaca data dan metadatanya (skema) untuk memahami isi sumber data. Kemudian mengimpor data ke danau data baru Anda dan mencatat metadata dalam katalog pusat. Dengan Lake Formation, Anda dapat mengimpor data dari MySQL, PostgreSQL, SQL Server, MariaDB, dan database Oracle yang berjalan di Amazon RDS atau dihosting di Amazon. EC2 Pemuatan data massal dan inkremental didukung.
Impor data dari sumber eksternal lainnya
Anda dapat menggunakan Lake Formation untuk memindahkan data dari database lokal dengan menghubungkan dengan Java Database Connectivity (JDBC). Identifikasi sumber target Anda dan berikan kredensil akses di konsol, dan Lake Formation membaca dan memuat data Anda ke dalam data lake. Untuk mengimpor data dari database selain yang tercantum di atas, Anda dapat membuat pekerjaan ETL khusus dengan. AWS Glue
Katalog dan beri label data Anda
Anda dapat menggunakan AWS Glue crawler untuk membaca data Anda di Amazon S3 dan mengekstrak skema database dan tabel serta menyimpan data tersebut dalam Katalog Data yang dapat dicari. Kemudian, gunakan Lake Formation Kontrol akses berbasis tag Lake Formation (TBAC) untuk mengelola izin pada database, tabel, dan kolom. Untuk informasi selengkapnya tentang menambahkan tabel ke Katalog Data, lihatMembuat objek di AWS Glue Data Catalog.
Manajemen keamanan
Tentukan dan kelola kontrol akses
Lake Formation menyediakan satu tempat untuk mengelola kontrol akses untuk data di danau data Anda. Anda dapat menentukan kebijakan keamanan yang membatasi akses ke data di tingkat database, tabel, kolom, baris, dan sel. Kebijakan ini berlaku untuk pengguna dan peran IAM, dan untuk pengguna dan grup saat melakukan federasi melalui penyedia identitas eksternal. Anda dapat menggunakan kontrol berbutir halus untuk mengakses data yang diamankan oleh Lake Formation dalam Amazon Redshift Spectrum, Athena, ETL AWS Glue , dan Amazon EMR untuk Apache Spark. Setiap kali Anda membuat identitas IAM, pastikan untuk mengikuti praktik terbaik IAM. Untuk informasi selengkapnya, lihat Praktik terbaik keamanan di Panduan Pengguna IAM.
Mode akses hibrid
Mode akses hibrida Lake Formation memberikan fleksibilitas untuk mengaktifkan izin Lake Formation secara selektif untuk database dan tabel di Katalog Data Anda. Dengan mode akses hybrid, Anda sekarang memiliki jalur tambahan yang memungkinkan Anda mengatur izin Lake Formation untuk kumpulan pengguna tertentu tanpa mengganggu kebijakan izin pengguna atau beban kerja lain yang ada. Untuk informasi selengkapnya, lihat Mode akses hibrid.
Melaksanakan pencatatan audit
Lake Formation menyediakan log audit komprehensif CloudTrail untuk memantau akses dan menunjukkan kepatuhan terhadap kebijakan yang ditetapkan secara terpusat. Anda dapat mengaudit riwayat akses data di seluruh layanan analitik dan pembelajaran mesin yang membaca data di danau data Anda melalui Lake Formation. Ini memungkinkan Anda melihat pengguna atau peran mana yang telah mencoba mengakses data apa, dengan layanan mana, dan kapan. Anda dapat mengakses log audit dengan cara yang sama Anda mengakses CloudTrail log lain menggunakan CloudTrail APIs dan konsol. Untuk informasi selengkapnya tentang CloudTrail log, lihatLogging AWS Lake Formation API Calls Menggunakan AWS CloudTrail.
Keamanan baris dan tingkat sel
Lake Formation menyediakan filter data yang memungkinkan Anda membatasi akses ke kombinasi kolom dan baris. Gunakan keamanan baris dan tingkat sel untuk melindungi data sensitif seperti Informasi Identifikasi Pribadi (PII). Untuk informasi selengkapnya tentang keamanan tingkat baris, lihat. Pemfilteran data dan keamanan tingkat sel di Lake Formation
Kontrol akses berbasis tag
Gunakan kontrol akses berbasis tag Lake Formation untuk mengelola ratusan atau bahkan ribuan izin data dengan membuat label khusus yang disebut LF-tag. Anda sekarang dapat menentukan LF-tag dan melampirkannya ke database, tabel, atau kolom. Kemudian, bagikan akses terkontrol di seluruh layanan analitik, pembelajaran mesin (ML), dan ekstrak, transformasi, dan muat (ETL) untuk konsumsi. LF-tag memastikan bahwa tata kelola data dapat diskalakan dengan mudah dengan mengganti definisi kebijakan dari ribuan sumber daya dengan beberapa tag logis. Lake Formation menyediakan pencarian berbasis teks melalui metadata ini, sehingga pengguna Anda dapat dengan cepat menemukan data yang perlu mereka analisis.
Akses lintas akun
Kemampuan manajemen izin Lake Formation menyederhanakan pengamanan dan pengelolaan data lake terdistribusi di beberapa AWS akun melalui pendekatan terpusat, menyediakan kontrol akses berbutir halus ke Katalog Data dan lokasi Amazon S3. Untuk informasi selengkapnya, lihat Berbagi data lintas akun di Lake Formation.
Bawa data Anda ke dalam Katalog Data
Kemampuan federasi memungkinkan Anda membuat katalog federasi dan mengatur izin pada kumpulan data yang disimpan dalam sumber data yang berbeda seperti Amazon Redshift tanpa memigrasikan data atau metadata ke Amazon S3 atau. AWS Glue Data Catalog Anda dapat menggunakan metode berikut untuk membawa data dan mengelola izin pada kumpulan data eksternal di Lake Formation:
Untuk informasi selengkapnya, lihat Membawa data Anda ke dalam AWS Glue Data Catalog.
-
Membawa data di gudang data Amazon Redshift ke dalam AWS Glue Data Catalog — Daftarkan namespace Amazon Redshift yang ada atau cluster dengan Katalog Data, dan buat katalog federasi multi-level di Katalog Data.
Anda dapat mengakses data Anda menggunakan mesin kueri apa pun yang kompatibel dengan spesifikasi OpenAPI katalog Apache Iceberg REST, seperti Amazon EMR Tanpa Server, dan Amazon Athena.
Untuk informasi selengkapnya, lihat Membawa data Amazon Redshift ke dalam AWS Glue Data Catalog.
-
Menggabungkan ke dalam Katalog Data dari sumber data eksternal — Hubungkan Katalog Data ke sumber data eksternal menggunakan AWS Glue koneksi, dan buat katalog federasi untuk mengelola izin akses secara terpusat pada kumpulan data menggunakan Lake Formation. Tidak diperlukan migrasi metadata ke dalam Katalog Data.
Untuk informasi selengkapnya, lihat Berfederasi ke sumber data eksternal di AWS Glue Data Catalog.
-
Mengintegrasikan Bucket Tabel Amazon S3 dengan Katalog Data — Anda dapat mempublikasikan dan membuat katalog Tabel Amazon S3 sebagai objek Katalog Data dan mendaftarkan katalog sebagai lokasi data Lake Formation dari konsol Lake Formation atau menggunakan. AWS Glue APIs
Untuk informasi selengkapnya, lihat Membuat katalog Tabel Amazon S3 di AWS Glue Data Catalog.
-
Buat katalog untuk mengelola tabel Amazon Redshift di Katalog Data — Anda mungkin tidak memiliki klaster produsen Amazon Redshift atau datashare Amazon Redshift yang tersedia saat ini, tetapi ingin membuat dan mengelola tabel Amazon Redshift menggunakan Katalog Data. Anda dapat memulai dengan membuat katalog AWS Glue terkelola menggunakan
glue:CreateCatalog
API atau AWS Lake Formation konsol dengan menyetel jenis katalog sebagaiManaged
danCatalog source
sebagai Redshift.Untuk informasi selengkapnya, lihat Membuat katalog terkelola Amazon Redshift di AWS Glue Data Catalog.
-
Mengintegrasikan Lake Formation dengan berbagi data Amazon Redshift — Gunakan Lake Formation untuk mengelola database, tabel, kolom, dan izin akses tingkat baris secara terpusat dari datashares Amazon Redshift dan membatasi akses pengguna ke objek dalam datashare.
-
Menghubungkan Katalog Data ke metastor eksternal — Sambungkan AWS Glue Data Catalog ke metastor eksternal untuk mengelola izin akses pada kumpulan data di Amazon S3 menggunakan Lake Formation. Tidak diperlukan migrasi metadata ke dalam Katalog Data.
Untuk informasi selengkapnya, lihat Mengelola izin pada kumpulan data yang menggunakan metastor eksternal.
-
Mengintegrasikan Lake Formation dengan AWS Data Exchange — Lake Formation mendukung lisensi akses ke data Anda melalui. AWS Data Exchange Jika Anda tertarik untuk melisensikan data Lake Formation Anda, lihat Apa yang ada AWS Data Exchange di Panduan AWS Data Exchange Pengguna.
Memulai dengan Lake Formation
Kami menyarankan Anda memulai dengan bagian berikut:
-
AWS Lake Formation: Cara kerjanya— Pelajari tentang terminologi penting dan bagaimana berbagai komponen berinteraksi.
-
Memulai dengan Lake Formation— Dapatkan informasi tentang prasyarat, dan selesaikan tugas penyiapan penting.
-
AWS Lake Formation tutorial— Ikuti step-by-step tutorial untuk mempelajari cara menggunakan Lake Formation.
-
Keamanan di AWS Lake Formation— Pahami bagaimana Anda dapat membantu mengamankan akses ke data di Lake Formation.