監控與除錯 - AWS 方案指引

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

監控與除錯

資料生命週期中的某些階段不是循序的,而是持續存在。這適用於監控和偵錯階段,如下圖所示。

監控和偵錯圖表

必須持續監控資料工程程序的正確性和效能。Amazon CloudWatch 在監控資料工程方面扮演重要角色,因為它會將每個錯誤和資訊日誌記錄到其日誌群組。您可以使用監控來建置自動錯誤復原。例如,如果您發現資料品質規則不滿意,您可以停止管道,也可以單獨記錄成功執行和失敗執行,以啟用復原動作。監控可改善資料工程程序 (即完整 ETL 程序) 和資料的整體可靠性。

此外,我們建議您建立 CloudWatch 儀表板,其中包含監控和偵錯程序的相關指標。這有助於確保資料工程程序如預期般順暢地執行。這對操作和報告很重要。例如,CloudWatch 儀表板可以向使用者顯示載入狀態,以協助他們了解程序的可靠性,或由於低品質或哪些來源發生最大故障而捨棄資料的百分比。CloudWatch 儀表板不僅可協助您視覺化結果,還可以透過識別 ETL 程序中的困擾點來改善程序。