Lake Formation 術語 - AWS Lake Formation

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

Lake Formation 術語

以下是您在本指南中會遇到的一些重要術語。

資料湖

料湖是您存放在 Amazon S3 中並由 Lake Formation 使用資料目錄管理的持續性資料。資料湖通常會儲存下列項目:

  • 結構化和非結構化資料

  • 原始資料和轉換資料

若要讓 Amazon S3 路徑位於資料湖內,必須向 Lake Formation 註冊

資料存取

Lake Formation 透過擴充 AWS Identity and Access Management (IAM) 政策的新授權/撤銷許可模型,提供安全且精細的資料存取。

分析師和資料科學家可以使用完整的 AWS 分析和機器學習服務產品組合 (例如 Amazon Athena) 來存取資料。設定的 Lake Formation 安全性原則有助於確保使用者只能存取其授權存取的資料。

混合存取模式

Hyrbid 存取模式可讓您使用 Lake Formation 許可和 IAM 和 Amazon S3 許可來保護和存取已編目的資料。混合式存取模式可讓資料管理員選擇性地逐步上載 Lake Formation 權限,一次專注於一個資料湖使用案例。

藍圖

藍圖是一種資料管理範本,可讓您輕鬆地將資料內嵌到資料湖中。Lake Formation 提供數個藍圖,每個藍圖用於預先定義的來源類型,例如關聯式資料庫或 AWS CloudTrail 記錄檔。您可以從藍圖建立工作流程。工作流程包含 AWS Glue 編目器、工作和觸發器,這些工作是為了協調資料的載入和更新而產生的。藍圖會將資料來源、資料目標和排程視為輸入,以設定工作流程。

工作流程

工作流程是一組相關AWS Glue工作、編目器和觸發器的容器。您可以在 Lake Formation 中建立工作流程,並在AWS Glue服務中執行。Lake Formation 可以將工作流程作為單一實體進行追蹤。

定義工作流程時,您可以選取工作流程所依據的藍圖。然後,您可以根據需要或按排程執行工作流程。

您在 Lake Formation 中建立的工作流程在AWS Glue主控台中會顯示為有向無環圖 (DAG)。使用 DAG,您可以追蹤工作流程的進度並執行疑難排解。

Data Catalog

資料目錄是您的永久性中繼資料存放區。這是一項託管服務,可讓您以在 Apache Hive 中繼存放區中相同的方式在 AWS 雲端中儲存、註解和共用中繼資料。它提供了一個統一的存儲庫,其中不同的系統可以存儲和查找元數據以跟踪數據孤島中的數據,然後使用該元數據查詢和轉換數據。Lake Formation 使用資AWS Glue料目錄來儲存有關資料湖、資料來源、轉換和目標的中繼資料。

有關資料來源和目標的中繼資料採用資料庫和表格的形式。表格儲存結構定義資訊、位置資訊等。數據庫是表的集合。Lake Formation 提供權限階層,以控制對資料目錄中資料庫和表格的存取。

每個 AWS 帳戶每個 AWS 區域都有一個資料目錄。

基礎資料

基礎資料是指「資料目錄」表格所指向的資料湖中的來源資料或資料。

Principal

主體是 AWS Identity and Access Management (IAM) 使用者或角色,或是作用中目錄使用者。

資料湖管理員

料湖管理員是可以授與任何資料目錄資源或資料位置的任何權限的任何主參與者 (包括自己) 的主參與者。指定資料湖管理員做為「資料目錄」的第一個使用者。然後,此使用者可以將更精細的資源權限授與其他主體。

注意

IAM 管理使用者 (具有AdministratorAccess AWS 受管政策的使用者) 不會自動成為資料湖管理員。例如,除非已授與目錄物件的 Lake Formation 權限,否則他們無法授與 Lake Formation 權限。但是,他們可以使用 Lake Formation 主控台或 API 將自己指定為資料湖管理員。

如需有關資料湖管理員權能的資訊,請參閱隱含 Lake Formation 權限。如需有關將使用者指定為資料湖管理員的資訊,請參閱建立資料湖管理員