本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。
在 Glue ETL AWS 任務中設定異常偵測
若要從 Glue Studio AWS 中的異常偵測開始,請開啟 AWS Glue Studio 任務,然後按一下評估資料品質轉換。
透過啟用此功能, AWS Glue Data Quality 會分析您的資料,以偵測異常。它提供寶貴的資料統計資料和資料觀察,讓您可以對任何已識別的異常採取行動。
檢閱異常偵測文件以了解此功能的內部運作。
啟用異常偵測
若要在 AWS Glue Studio 中啟用異常偵測功能:
-
選擇作業中的 Data Quality 節點,然後選擇異常偵測索引標籤。切換以開啟啟用異常偵測。
-
選擇新增分析器,定義要監視異常的資料。您可以填入兩個欄位:統計資料和資料。
-
統計資料是資料形狀和其他屬性的相關資訊。您可以一次選擇一或多個統計資料,或選擇所有統計資料。統計資料包括:完整性、唯一性、平均值、總和、StandardDeviation、Entropy、DistinctValuesCount、UniqueValueRatio 等。如需詳細資訊,請參閱 Analyzers 文件。
-
資料是資料集中的資料欄。您可以選擇所有資料欄或個別資料欄。
-
-
選擇新增異常偵測範圍來儲存變更。新增分析器之後,您可以在異常偵測範圍區段中看到它們。
您也可以使用動作功能表來編輯分析器,或選擇規則集編輯器索引標籤,然後直接在規則集編輯器記事本中編輯分析器。您將看到您在已建立的任何規則下儲存的分析器。
Rules = [ ] Analyzers = [ Completeness “id” ]
設定更新的規則集和分析器後, AWS Glue Data Quality 會持續監控傳入的資料串流。根據您的設定,它可以透過提醒或任務停止發出潛在異常的訊號。此主動監控有助於確保整個資料管道的資料品質和完整性。
在下一節中,您將了解如何有效地監控系統識別的異常。您也將了解如何檢視和分析 Glue Data Quality AWS 收集的資料統計資料。此外,您將了解如何提供意見回饋給支援異常偵測功能的機器學習模型。此回饋迴圈對於改善模型的準確性,並確保它可以有效地偵測符合您特定業務需求和資料模式的異常狀況至關重要。