數據發現和編目 AWS Glue - AWS Glue

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

數據發現和編目 AWS Glue

這 AWS Glue Data Catalog 是一個集中儲存組織資料集的中繼資料的儲存庫。它充當資料來源位置、結構描述和執行階段度量的索引。中繼資料儲存在中繼資料表格中,其中每個表格代表單一資料存放區。

您可以使用爬蟲 (Crawler) 填入資料目錄,它會自動掃描您的資料來源並擷取中繼資料。爬行者程式可以連線到內部 (AWS基於) 和外部的資料來源。 AWS

如需有關支援資料來源的詳細資訊,請參閱 我可以網路爬取哪個資料存放區?

您也可以根據特定需求定義資料表結構、結構描述和資料分割結構,在「資料目錄」中手動建立資料表。

如需手動建立中繼資料表格的詳細資訊,請參閱手動定義元資料

您可以使用資料目錄中的資訊來建立和監視 ETL 工作。資料型錄與其他分 AWS 析服務整合,提供資料來源的統一檢視,讓您更輕鬆地管理和分析資料。

  • Amazon Athena — 使用 SQL 在 Amazon S3 資料的資料目錄中存放和查詢表格中繼資料。

  • AWS Lake Formation — 集中定義和管理精細的數據訪問策略和審核數據訪問。

  • Amazon EMR — 存取資料目錄中定義的資料來源以進行大數據處理。

  • Amazon SageMaker — 快速且自信地建置、訓練和部署機器學習模型。

資料目錄的主要功能

以下是資料目錄的關鍵方面。

元數據存儲

「資料目錄」充當中央描述資料儲存庫,可儲存有關資料來源位置、結構描述和屬性的資訊。此中繼資料會組織成資料庫和表格,類似於傳統的關聯式資料庫目錄。

自動資料可探索性

AWS Glue 編目程式 s 可以自動探索和編目新的或更新的資料來源,減少手動中繼資料管理的額外負荷,並確保您的資料目錄保留 up-to-date。透過對資料來源進行編目,資料目錄可讓使用者和應用程式更輕鬆地探索和瞭解組織內可用的資料資產,進而促進資料重複使用和協同合作。

資料型錄支援各種資料來源,包括 Amazon S3、Amazon RDS、Amazon Redshift、阿帕奇蜂巢等。它可以使用 AWS Glue 編目程式 s 自動推斷和存儲這些來源的元數據。

若要取得更多資訊,請參閱使用編目器填入資料目錄

綱要管理

「資料目錄」會自動擷取和管理資料來源的結構描述,包括結構描述推論、演進和版本控制。您可以使用 AWS Glue ETL 工作更新「資料目錄」中的結構描述和分割區。

表格最佳化

為了透過 Amazon Athena 和 Amazon EMR 和 AWS Glue ETL 任務等 AWS 分析服務獲得更好的讀取效能,資料型錄為資料目錄中的冰山表提供受管壓縮 (將小型 Amazon S3 物件壓縮為較大物件的程序)。您可以使用 AWS Glue 主控 AWS Lake Formation 台 AWS CLI、主控台或 AWS API 來啟用或停用資料目錄中個別 Iceberg 資料表的壓縮功能。

如需詳細資訊,請參閱 最佳化處理 Iceberg 資料表

資料欄統計資料

您可以計算資料目錄資料表的資料格式 (例如實木複合地板、ORC、JSON、ION、CSV 和 XML) 的欄層級統計資料,而無需設定其他資料管線。資料欄統計資料可協助您透過深入了解資料欄內的值,了解資料設定檔。資料目錄支援產生資料行值的統計資料,例如最小值、最大值、總 Null 值、總不同值、值的平均長度,以及真實值的總發生次數。

如需詳細資訊,請參閱 使用資料欄統計資料來最佳化

資料歷程

「資料目錄」會維護對資料執行的轉換和作業的記錄,以提供資料歷程資訊。此歷程資訊對於稽核、法規遵循和瞭解資料的來源非常有用。

與其他 AWS 服務整合

資料型錄可與其他 AWS 服務無縫整合,例如 AWS Lake Formation Amazon Athena、Amazon Redshift Spectrum 和 Amazon EMR。此整合可讓您使用單一一致的中繼資料層,查詢和分析各種資料存放區的資料。

安全性和存取控制

AWS Glue 與整合 AWS Lake Formation 以支援資料目錄資源的精細存取控制,讓您可以根據組織的政策和需求來管理權限並保護對資料資產的存取。 AWS Glue 與 AWS Key Management Service (AWS KMS) 整合以加密儲存在資料目錄中的中繼資料。