與其他 AWS 服務整合 - AWS Glue

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

與其他 AWS 服務整合

雖然您可以使用 AWS Glue 編目程式 s 來填入 AWS Glue Data Catalog,但有數個 AWS 服務可以自動整合並為您填入目錄。下列各節提供有關可填入資料目錄之 AWS 服務所支援之特定使用案例的詳細資訊。

AWS Lake Formation

AWS Lake Formation 是一項可讓您更輕鬆地在中設定安全資料湖的服務 AWS。Lake Formation 是建立在上面的 AWS Glue,和 Lake Formation 和 AWS Glue 共享相同的 AWS Glue Data Catalog。您可以向 Lake Formation 註冊 Amazon S3 資料位置,並使用 Lake Formation 主控台在 AWS Glue 資料目錄中建立資料庫和表格、定義資料存取政策,以及從中央位置稽核跨資料湖的資料存取。您可以使用 Lake Formation 精細的存取控制來管理現有的資料目錄資源和 Amazon S3 資料位置。

透過向 Lake Formation 註冊的資料,您可以在 IAM 主體、 AWS 帳戶、組織和組織單位之間安全地共用資料目錄資源。 AWS

如需有關使用 Lake Formation 建立資料目錄資源的詳細資訊,請參閱 AWS Lake Formation 開發人員指南中的建立資料目錄表格和資料庫

Amazon Athena

Amazon Athena 使用資料目錄存放和擷取 AWS 帳戶中 Amazon S3 資料的表格中繼資料。資料表中繼資料可讓 Athena 查詢引擎知道如何尋找、讀取和處理您想要查詢的資料。

您可以直接使 AWS Glue Data Catalog 用 Athena CREATE TABLE 陳述式填入。您可以在「資料目錄」中手動定義和填入結構描述資料和分割區中繼資料,而不需要執行爬行者程式。

  1. 在 Athena 主控台中,建立將資料表中繼資料儲存在資料目錄中的資料庫。

  2. 使用CREATE EXTERNAL TABLE陳述式來定義資料來源的結構描述。

  3. 如果您的資料已分割,請使用PARTITIONED BY子句來定義任何分割索引鍵。

  4. 使用該LOCATION子句指定存放實際資料檔案的 Amazon S3 路徑。

  5. 執行 CREATE TABLE 陳述式。

    此查詢會根據您定義的結構描述和分割區,在「資料目錄」中建立資料表中繼資料,而不會實際探索資料。

您可以在 Athena 中查詢資料表,它會使用資料目錄中的中繼資料存取和查詢 Amazon S3 中的資料檔案。

如需詳細資訊,請參閱 Amazon Athena 使用者指南中的建立資料庫和表格