使用 AWS Glue 工作室評估資料品質 - AWS Glue

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

使用 AWS Glue 工作室評估資料品質

AWS Glue Data Quality 會根據您定義的規則來評估和監控資料品質。這可以讓您很容易地識別需要採取行動的資料。在 AWS Glue Studio 中,您可以將資料品質節點新增至視覺化任務,以便在資料目錄的資料表上建立資料品質規則。然後,您可以監控和評估資料集隨著時間推移發生的變化。如需有關如何在 AWS Glue Studio 中使用 AWS Glue Data Quality 的概觀,請參閱下列影片。

以下是如何使用 AWS Glue Data Quality 的高階步驟:

  1. 建立資料品質規則 — 選擇您配置的內建規則集,使用DQDL產生器建立一組資料品質規則。

  2. 設定資料品質任務:根據資料品質結果和輸出選項定義動作。

  3. 儲存並執行資料品質任務:建立並執行任務。儲存任務將儲存您為任務建立的規則集。

  4. 監控和檢閱資料品質結果:在任務執行完成後檢閱資料品質結果。您可以選擇將任務排定在未來日期。

優勢

資料分析師、資料工程師和資料科學家可以使用 AWS Glue Studio 中的評估資料品質節點來分析、設定、監控和改善視覺化任務編輯器中的資料品質。使用資料品質節點的好處包括:

  • 偵測資料品質問題:您可以透過建立可檢查資料集特性的規則來檢查問題。

  • 易於上手:您可以從預先建置的規則和動作開始。

  • 緊密整合:您可以在 AWS Glue Studio 中使用資料品質節點,因為 AWS Glue Data Quality 在 AWS Glue Data Catalog 上執行。