重要功能和概念 - AWS 方案指引

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

重要功能和概念

日誌記錄和監控

AWS Glue 有數個記錄和監控選項。根據預設, AWS Glue 會將日誌傳送至 Amazon CloudWatch 中的aws-glue日誌群組。這些日誌包含開始和結束時間、組態設定,以及可能發生的任何錯誤或警告等資訊。

此外, AWS Glue Spark ETL 任務提供下列選項,必須啟用這些選項才能進行進階監控:

  • 任務指標每 30 秒向 CloudWatch 中的 AWS Glue 命名空間報告任務特定的指標。這些任務特定的指標,例如已處理的記錄、總輸入/輸出資料大小和執行時間,可提供任務效能的洞見。他們可以協助識別瓶頸或最佳化組態的機會。

  • 持續記錄會將即時 Apache Spark 任務日誌串流到 CloudWatch 中的/aws-glue/jobs/logs-v2日誌群組。透過使用即時日誌,您可以在 AWS Glue 任務執行時動態監控任務。

  • Spark UI 提供 Spark 歷史記錄伺服器 Web 介面,用於檢視 Spark 任務的相關資訊,例如每個階段的事件時間表、導向非循環圖表和任務環境變數。持久的 Spark UI 事件日誌存放在 Amazon S3 中,您可以即時或在任務完成後使用它們。

  • 任務執行洞見可簡化任務偵錯和最佳化,方法是聆聽常見的 Spark 例外狀況、執行根本原因分析,並提供建議的動作來修正問題。洞見會存放在 CloudWatch 中。

 自動化

AWS Glue 為您提供兩種主要方法來自動化 ETL 任務:觸發條件和工作流程。

AWS Glue 觸發條件

觸發時, AWS Glue 觸發器會啟動指定的任務和爬蟲程式。觸發程序可以隨需觸發、根據預先定義的排程觸發,或根據特定事件觸發。您可以使用觸發條件來設計相依任務和爬蟲程式的鏈。如需詳細資訊,請參閱 AWS Glue 觸發條件。 

AWS Glue 工作流程

對於更複雜的工作負載,您可以使用 AWS Glue 工作流程來建立定向非循環圖形,並在不同的 AWS Glue 實體 (觸發器、爬蟲程式和任務) 之間建立相依性。工作流程也提供統一的界面,您可以在其中共用參數、監控進度,以及對關聯實體的問題進行故障診斷。

在 AWS Glue 工作流程中設定許多相關聯的實體可能會變得越來越複雜。開發人員可以建立AWS Glue 藍圖,與資料科學家和商業分析師共用複雜的資料管道。這些範本允許建立一致且可重複的 AWS Glue 工作流程,並消除技術詳細資訊。

若要進一步了解 AWS Glue 藍圖和工作流程,請參閱使用藍圖和工作流程在 中執行複雜的 ETL 活動 AWS Glue

與其他 AWS 服務協調 AWS Glue 任務

如需更多自動化選項, 會與其他 AWS 服務 AWS Glue 整合,例如 AWS Lambda AWS Step Functions、 和 Amazon Managed Workflows for Apache Airflow (Amazon MWAA)。

若要比較 AWS Glue ETL 任務的不同協調方法,請參閱建置操作卓越的資料管道

任務書籤

中的任務書籤 AWS Glue 用於追蹤 ETL 任務的進度,這使得在後續任務執行中不需要重新處理資料。啟用任務書籤時, AWS Glue 會維護已處理的資料記錄。然後,每次執行時,它只會處理資料來源中的新資料。如需詳細資訊,請參閱使用任務書籤追蹤處理的資料