本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。
使用 AWS Glue 工作室評估資料品質
AWS Glue Data Quality 會根據您定義的規則來評估和監控資料品質。這可以讓您很容易地識別需要採取行動的資料。在 AWS Glue Studio 中,您可以將資料品質節點新增至視覺化任務,以便在資料目錄的資料表上建立資料品質規則。然後,您可以監控和評估資料集隨著時間推移發生的變化。如需有關如何在 AWS Glue Studio 中使用 AWS Glue Data Quality 的概觀,請參閱下列影片。
以下是如何使用 AWS Glue Data Quality 的高階步驟:
-
建立資料品質規則 — 選擇您配置的內建規則集,使用DQDL產生器建立一組資料品質規則。
-
設定資料品質任務:根據資料品質結果和輸出選項定義動作。
-
儲存並執行資料品質任務:建立並執行任務。儲存任務將儲存您為任務建立的規則集。
-
監控和檢閱資料品質結果:在任務執行完成後檢閱資料品質結果。您可以選擇將任務排定在未來日期。
優勢
資料分析師、資料工程師和資料科學家可以使用 AWS Glue Studio 中的評估資料品質節點來分析、設定、監控和改善視覺化任務編輯器中的資料品質。使用資料品質節點的好處包括:
-
偵測資料品質問題:您可以透過建立可檢查資料集特性的規則來檢查問題。
-
易於上手:您可以從預先建置的規則和動作開始。
-
緊密整合:您可以在 AWS Glue Studio 中使用資料品質節點,因為 AWS Glue Data Quality 在 AWS Glue Data Catalog 上執行。