本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。
AWS Glue 資料品質
AWS Glue 資料品質可讓您測量和監控資料品質,以便做出正確的業務決策。 AWS Glue 資料品質以開放原始碼 DeeQu 架構為基礎,提供受管理的無伺服器體驗。 AWS Glue 資料品質與資料品質定義語言 (DQDL) 搭配使用,此語言是您用來定義資料品質規則的網域特定語言。若要進一步了解 DQDL 和支援的規則類型,請參閱 資料品質定義語言 (DQDL) 參考。
如需了解產品詳細資訊和定價,請參閱 AWS Glue Data Quality
優點和重要功能
AWS Glue 資料品質的優點和主要功能包括:
-
無伺服器:無需安裝、修補或維護。
-
快速入門 — AWS Glue 資料品質可快速分析您的資料,並為您建立資料品質規則。只要按兩下即可開始使用:「建立資料品質規則 → 建議規則」。
-
偵測資料品質問題 — 使用機器學習 (ML) 偵測異常和 hard-to-detect 資料品質問題。
-
即興創作您的規則 — 從 25 個以上的 out-of-the-box DQ 規則開始,您可以建立符合您特定需求的規則。
-
評估品質並做出自信的業務決策:評估規則後,即可取得資料品質分數供您了解資料運作狀態。使用資料品質分數做出自信的業務決策。
-
零損壞資料 — 資 AWS Glue 料品質可協助您識別導致品質分數下降的確切記錄。輕鬆識別、隔離並修復這些記錄。
-
按用量付費 — 您不需要年度授權即可使用 AWS Glue 資料品質。
-
不受限制 — AWS Glue 資料品質建立在開放原始碼之上 DeeQu,可讓您以開放的語言保留正在編寫的規則。
-
資料品質檢查 — AWS Glue 資料品質您可以對Data Catalog和 AWS Glue ETL 管道執行資料品質檢查,讓您管理靜態和傳輸中的資料品質。
-
以 ML 為基礎的資料品質偵測 — 使用機器學習 (ML) 偵測異常和 hard-to-detect 資料品質問題。
運作方式
「 AWS Glue 資料品質」有兩個進入點: AWS Glue Data Catalog 和 AWS Glue ETL 工作。本節提供每個進入點支援的使用案例和 AWS Glue 功能的概觀。
資料品質 AWS Glue Data Catalog
AWS Glue 數據質量評估存儲在「 AWS Glue Data Catalog 它」中的對象為非編碼人員提供了一種簡單的方法來設置數據質量規則。這些人員角色包括資料管理員和業務分析師。
您可以針對下列使用案例選擇此選項:
-
您想要對已在 AWS Glue Data Catalog中分類的資料集執行資料品質任務。
-
您致力於資料控管,且需要持續識別或評估資料湖中的資料品質問題。
您可以使用下列介面來管理資料型錄的資料品質:
-
AWS Glue 管理主控台
-
AWS Glue API
若要開始使用「 AWS Glue 資料品質」, AWS Glue Data Catalog 請參閱開始使用適用於 Data Catalog 的 AWS Glue Data Quality。
AWS Glue ETL 工作的資料品質
AWS Glue AWS Glue ETL 任務的資料品質可讓您執行主動式資料品質工作。主動式任務可協助您在將資料集載入資料湖之前,識別並篩選出錯誤資料。
您可以針對下列使用案例選擇適用於 ETL 任務的資料品質:
-
您想要將資料品質任務納入 ETL 任務
-
您想要撰寫在 ETL 指令碼中定義資料品質任務的程式碼
-
您想要管理在視覺化資料管道中流動的資料品質
您可以使用下列介面來管理適用於 ETL 任務的資料品質:
-
AWS Glue Studio、 AWS Glue Studio 筆記本和 AWS Glue 互動式工作階段
-
AWS Glue ETL 指令碼的程式庫
-
AWS Glue API
若要開始使用適用於 ETL 任務的資料品質,請參閱《AWS Glue Studio 使用者指南》中的教學課程:開始使用 Data Quality。
比較資料型錄的資料品質與 ETL 任務的資料品質
此表格提供「 AWS Glue 資料品質」每個進入點支援的功能概觀。
功能 | 適用於資料型錄的資料品質 | 適用於 ETL 任務的資料品質 |
---|---|---|
資料來源 | Amazon S3、Amazon Redshift、與資料型錄相容的 JDBC 來源,以及 Apache Iceberg、Apache Hudi 和 Delta Lake 等交易資料湖格式。請注意,如果表是 AWS Lake Formation 受管理的,則不支援冰山、三角洲和 HUDI 資料表。 Amazon Athena 不支援在中編目 AWS Glue Data Catalog 的檢視表。 | 支援的所有資料來源 AWS Glue,包括自訂連接器和協力廠商連接器。 |
資料品質規則建議 | 支援 | 不支援 |
撰寫並執行 DQDL 規則 | 支援 | 支援 |
自動擴展 | 不支援 | 支援 |
AWS Glue 彈性支援 | 不支援 | 支援 |
排程 | 評估資料品質規則和使用 Step Functions 時支援。 | 使用 Step Functions 和工作流程時支援。 |
識別未通過資料品質檢查的記錄。 | 不支援 | 支援 |
整合 Amazon Eventbridge | 支援 | 支援 |
與 AWS 雲觀察整合 | 支援 | 支援 |
將資料品質結果寫入 Amazon S3 | 支援 | 支援 |
增量資料品質 | 透過下推述詞支援 | 透過 AWS Glue 書籤支援 |
AWS CloudFormation 支持 | 支援 | 支援 |
以 ML 為基礎的異常偵測 | 不支援 | 預覽版 |
動態規則 | 不支援 | 支援 |
考量事項
在使用「資 AWS Glue 料品質」之前,請考慮下列項目:
-
資料品質規則無法評估巢狀或清單類型的資料來源。請參閱壓平合併巢狀結構。
術語
下列清單定義了與 AWS Glue 資料品質相關的術語。
- 資料品質定義語言 (DQDL)
-
可用來撰寫 AWS Glue 資料品質規則的網域特定語言。
若要進一步了解 DQDL,請參閱 資料品質定義語言 (DQDL) 參考 指南。
- 資料品質
-
描述資料集如何達成其特定用途。 AWS Glue 「資料品質」會根據資料集評估規則,以測量資料品質。每個規則都會檢查特定特性,例如資料更新狀態或完整性。若要量化資料品質,您可以使用資料品質分數。
- 資料品質分數
-
當您使用「資料品質」評估規則集時,通過 (結果為 true) 的 AWS Glue 資料品質規則百分比。
- 規則
-
此即 DQDL 運算式,會檢查資料是否有特定特性並傳回布林值。如需詳細資訊,請參閱 規則結構。
- analyzer
-
收集資料統計資料的 DQDL 表達式。分析器會收集 ML 演算法用來偵測異常和 hard-to-detect 資料品質問題的資料統計資料。
- 規則集
-
包含一組 AWS Glue 資料品質規則的資源。規則集必須與 AWS Glue Data Catalog中的資料表建立關聯。儲存規則集時, AWS Glue 會向規則集指派 Amazon Resource Name (ARN)。
- 資料品質分數
-
當您使用 AWS Glue Data Quality 評估規則集時,通過 (結果為 true) 的資料品質規則百分比。
- 觀察
-
AWS Glue 透過分析一段時間內從規則和分析器收集的資料統計資料,而產生的未經證實的洞察。
限制
AWS Glue 資料品質服務限制:
-
您可以在規則集中擁有 2000 個規則。如果您的規則集較大,我們建議您拆分為多個規則集。
-
規則集的大小為 65KB。如果您的規則集較大,我們建議您拆分為多個規則集。
AWS Glue 資料品質的版本說明
本主題說明「 AWS Glue 資料品質」中引入的功能。
正式推出:新功能
下列新功能適用於「 AWS Glue 資料品質」的正式推出:
現在支援識別哪些記錄失敗的資料品質檢查的功能 AWS Glue Studio
全新的資料品質規則類型,例如驗證兩個資料集之間的資料參照完整性、比較兩個資料集之間的資料,以及資料類型檢查
改善中的使用者體驗 AWS Glue Data Catalog
支援 Apache Iceberg、Apache Hudi 和 Delta Lake
支援 Amazon Redshift
使用 Amazon 簡化通知 EventBridge
AWS CloudFormation 支援建立規則集
性能改進:ETL 中的緩存選項以及 AWS Glue Studio 在評估數據質量時更快的性能
2023 年 11 月 27 日 (預覽)
-
採用 ML 的異常偵測功能現在可在 AWS Glue ETL 和 AWS Glue Studio 中使用。有了這個功能,您現在可以偵測異常和 hard-to-detect 資料品質問題。
2024 年 3 月 12 日
-
DQDL 改善功能
2024年6月26日
-
DQDL 改善功能
-
DQDL 現在支持 where 子句,以便您可以在應用 DQ 規則之前過濾數據
-