AWS Glue 資料品質 - AWS Glue

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

AWS Glue 資料品質

AWS Glue 資料品質可讓您測量和監控資料品質,以便做出正確的業務決策。 AWS Glue 資料品質以開放原始碼 DeeQu 架構為基礎,提供受管理的無伺服器體驗。 AWS Glue 資料品質與資料品質定義語言 (DQDL) 搭配使用,此語言是您用來定義資料品質規則的網域特定語言。若要進一步了解 DQDL 和支援的規則類型,請參閱 資料品質定義語言 (DQDL) 參考

如需了解產品詳細資訊和定價,請參閱 AWS Glue Data Quality 的服務頁面。

優點和重要功能

AWS Glue 資料品質的優點和主要功能包括:

  • 無伺服器:無需安裝、修補或維護。

  • 快速入門 — AWS Glue 資料品質可快速分析您的資料,並為您建立資料品質規則。只要按兩下即可開始使用:「建立資料品質規則 → 建議規則」。

  • 偵測資料品質問題 — 使用機器學習 (ML) 偵測異常和 hard-to-detect 資料品質問題。

  • 即興創作您的規則 — 從 25 個以上的 out-of-the-box DQ 規則開始,您可以建立符合您特定需求的規則。

  • 評估品質並做出自信的業務決策:評估規則後,即可取得資料品質分數供您了解資料運作狀態。使用資料品質分數做出自信的業務決策。

  • 零損壞資料 — 資 AWS Glue 料品質可協助您識別導致品質分數下降的確切記錄。輕鬆識別、隔離並修復這些記錄。

  • 用量付費 — 您不需要年度授權即可使用 AWS Glue 資料品質。

  • 不受限制 — AWS Glue 資料品質建立在開放原始碼之上 DeeQu,可讓您以開放的語言保留正在編寫的規則。

  • 資料品質檢查 — AWS Glue 資料品質您可以對Data Catalog和 AWS Glue ETL 管道執行資料品質檢查,讓您管理靜態和傳輸中的資料品質。

  • 以 ML 為基礎的資料品質偵測 — 使用機器學習 (ML) 偵測異常和 hard-to-detect 資料品質問題。

運作方式

「 AWS Glue 資料品質」有兩個進入點: AWS Glue Data Catalog 和 AWS Glue ETL 工作。本節提供每個進入點支援的使用案例和 AWS Glue 功能的概觀。

資料品質 AWS Glue Data Catalog

AWS Glue 數據質量評估存儲在「 AWS Glue Data Catalog 它」中的對象為非編碼人員提供了一種簡單的方法來設置數據質量規則。這些人員角色包括資料管理員和業務分析師。

您可以針對下列使用案例選擇此選項:

  • 您想要對已在 AWS Glue Data Catalog中分類的資料集執行資料品質任務。

  • 您致力於資料控管,且需要持續識別或評估資料湖中的資料品質問題。

您可以使用下列介面來管理資料型錄的資料品質:

  • AWS Glue 管理主控台

  • AWS Glue API

若要開始使用「 AWS Glue 資料品質」, AWS Glue Data Catalog 請參閱開始使用適用於 Data Catalog 的 AWS Glue Data Quality

AWS Glue ETL 工作的資料品質

AWS Glue AWS Glue ETL 任務的資料品質可讓您執行主動式資料品質工作。主動式任務可協助您在將資料集載入資料湖之前,識別並篩選出錯誤資料。

您可以針對下列使用案例選擇適用於 ETL 任務的資料品質:

  • 您想要將資料品質任務納入 ETL 任務

  • 您想要撰寫在 ETL 指令碼中定義資料品質任務的程式碼

  • 您想要管理在視覺化資料管道中流動的資料品質

您可以使用下列介面來管理適用於 ETL 任務的資料品質:

  • AWS Glue Studio、 AWS Glue Studio 筆記本和 AWS Glue 互動式工作階段

  • AWS Glue ETL 指令碼的程式庫

  • AWS Glue API

若要開始使用適用於 ETL 任務的資料品質,請參閱《AWS Glue Studio 使用者指南》中的教學課程:開始使用 Data Quality

比較資料型錄的資料品質與 ETL 任務的資料品質

此表格提供「 AWS Glue 資料品質」每個進入點支援的功能概觀。

功能 適用於資料型錄的資料品質 適用於 ETL 任務的資料品質
資料來源 Amazon S3、Amazon Redshift、與資料型錄相容的 JDBC 來源,以及 Apache Iceberg、Apache Hudi 和 Delta Lake 等交易資料湖格式。請注意,如果表是 AWS Lake Formation 受管理的,則不支援冰山、三角洲和 HUDI 資料表。 Amazon Athena 不支援在中編目 AWS Glue Data Catalog 的檢視表。 支援的所有資料來源 AWS Glue,包括自訂連接器和協力廠商連接器。
資料品質規則建議 支援 不支援
撰寫並執行 DQDL 規則 支援 支援
自動擴展 不支援 支援
AWS Glue 彈性支援 不支援 支援
排程 評估資料品質規則和使用 Step Functions 時支援。 使用 Step Functions 和工作流程時支援。
識別未通過資料品質檢查的記錄。 不支援 支援
整合 Amazon Eventbridge 支援 支援
與 AWS 雲觀察整合 支援 支援
將資料品質結果寫入 Amazon S3 支援 支援
增量資料品質 透過下推述詞支援 透過 AWS Glue 書籤支援
AWS CloudFormation 支持 支援 支援
以 ML 為基礎的異常偵測 不支援 預覽版
動態規則 不支援 支援

考量事項

在使用「資 AWS Glue 料品質」之前,請考慮下列項目:

術語

下列清單定義了與 AWS Glue 資料品質相關的術語。

資料品質定義語言 (DQDL)

可用來撰寫 AWS Glue 資料品質規則的網域特定語言。

若要進一步了解 DQDL,請參閱 資料品質定義語言 (DQDL) 參考 指南。

資料品質

描述資料集如何達成其特定用途。 AWS Glue 「資料品質」會根據資料集評估規則,以測量資料品質。每個規則都會檢查特定特性,例如資料更新狀態或完整性。若要量化資料品質,您可以使用資料品質分數

資料品質分數

當您使用「資料品質」評估規則集時,通過 (結果為 true) 的 AWS Glue 資料品質規則百分比。

規則

此即 DQDL 運算式,會檢查資料是否有特定特性並傳回布林值。如需詳細資訊,請參閱 規則結構

analyzer

收集資料統計資料的 DQDL 表達式。分析器會收集 ML 演算法用來偵測異常和 hard-to-detect 資料品質問題的資料統計資料。

規則集

包含一組 AWS Glue 資料品質規則的資源。規則集必須與 AWS Glue Data Catalog中的資料表建立關聯。儲存規則集時, AWS Glue 會向規則集指派 Amazon Resource Name (ARN)。

資料品質分數

當您使用 AWS Glue Data Quality 評估規則集時,通過 (結果為 true) 的資料品質規則百分比。

觀察

AWS Glue 透過分析一段時間內從規則和分析器收集的資料統計資料,而產生的未經證實的洞察。

限制

AWS Glue 資料品質服務限制:

  • 您可以在規則集中擁有 2000 個規則。如果您的規則集較大,我們建議您拆分為多個規則集。

  • 規則集的大小為 65KB。如果您的規則集較大,我們建議您拆分為多個規則集。

AWS Glue 資料品質的版本說明

本主題說明「 AWS Glue 資料品質」中引入的功能。

正式推出:新功能

下列新功能適用於「 AWS Glue 資料品質」的正式推出:

  • 現在支援識別哪些記錄失敗的資料品質檢查的功能 AWS Glue Studio

  • 全新的資料品質規則類型,例如驗證兩個資料集之間的資料參照完整性、比較兩個資料集之間的資料,以及資料類型檢查

  • 改善中的使用者體驗 AWS Glue Data Catalog

  • 支援 Apache Iceberg、Apache Hudi 和 Delta Lake

  • 支援 Amazon Redshift

  • 使用 Amazon 簡化通知 EventBridge

  • AWS CloudFormation 支援建立規則集

  • 性能改進:ETL 中的緩存選項以及 AWS Glue Studio 在評估數據質量時更快的性能

2023 年 11 月 27 日 (預覽)

2024 年 3 月 12 日

2024年6月26日

  • DQDL 改善功能

    • DQDL 現在支持 where 子句,以便您可以在應用 DQ 規則之前過濾數據