Data Quality 規則建置器 - AWS Glue

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

Data Quality 規則建置器

使用資料品質定義語言 (DQDL) 規則建置器,您可以建立資料品質規則來評估資料。先選取規則類型,然後在規則編輯器中指定參數。規則編輯器也會在您建立規則時顯示任何錯誤和警告。

DQDL 指南提供有關如何使用 DQDL 語法、內建規則類型和範例來建構規則的完整文件。

評估資料品質節點

使用評估資料品質轉換節點和 DQDL 規則建置器時,您可以展開工作空間。

  • 若要展開轉換索引標籤以填滿整個畫面,請選擇節點詳細資訊面板右上角的展開圖示。

  • 若要展開 DQDL 規則編輯器,請選擇 << 圖示以展開規則編輯器及收合規則類型結構描述索引標籤。

    螢幕擷取畫面顯示評估資料品質節點的任務圖表。

元件

AWS Glue Studio 內建了 26 種規則類型。每種規則類型都有描述和使用方式的範例。

資料品質規則類型

AWS Glue Studio 提供內建規則類型,以便於建立規則。如需規則類型的詳細資訊,請參閱 DQDL rule type reference (DQDL 規則類型參考)。

結構描述

Schema (結構描述) 索引標籤會顯示父節點的欄名稱和資料類型。隨即會顯示多個節點的結構描述。您可以檢視輸入結構描述、依欄名稱搜尋,以及將欄插入規則編輯器。

螢幕擷取畫面顯示規則編輯器,其中包含使用「完整度」規則類型的完整規則。

規則編輯器

規則編輯器是一個文字編輯器,您可以在其中編寫和編輯規則。如果您從 DQDL 規則建置器中選取規則類型,則規則類型會新增至規則編輯器。然後,您可以隨需透過修改文字來指定參數、新增規則和編輯規則。AWS Glue Studio 驗證規則編輯器中的規則,並顯示錯誤和警告 (如果有)。

錯誤和警告

如果規則不遵循 DQDL 規則語法,則規則編輯器會顯示數個視覺化指標,表示發生錯誤:

  • 規則編輯器在有錯誤的行上顯示紅色的錯誤圖示。

  • 規則編輯器會在紅色錯誤圖示旁顯示錯誤的數量。

  • 如果選擇包含錯誤的行,錯誤的描述和位置 (行和資料欄) 會顯示在規則編輯器底部。

螢幕擷取畫面顯示 DQDL 規則編輯器,在第 1 行和規則編輯器底部有錯誤指標,並顯示了錯誤數量。其下則是錯誤的描述。

資料品質動作

依預設不會選取此動作,即使資料品質規則失敗,任務也會完成其執行。

在下列動作之間進行選擇。您可使用動作來根據特定條件將結果發布至 CloudWatch 或停止任務。動作只有在您建立規則之後才可用。

  • 將結果發布至 CloudWatch:執行任務時,將結果新增至 CloudWatch。

  • 資料品質失敗時任務失敗:如果資料品質規則失敗,任務也會因此失敗。

資料品質轉換輸出

  • 原始資料:選擇輸出原始輸入資料。如果您想在偵測到品質問題時停止任務,此選項則是理想的選擇。

  • 資料品質指標:選擇輸出已設定的規則及其通過或失敗狀態。如果您想要採取自訂動作,此選項非常實用。

資料品質輸出設定

將 Amazon S3 位置指定為資料品質輸出目標,從而設定資料品質結果位置。