主控台中的 AWS Glue 任務執行狀態 - AWS Glue

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

主控台中的 AWS Glue 任務執行狀態

您可以在AWS Glue擷取、轉換和 load (ETL) 工作執行時或停止後檢視該工作的狀態。您可以使用 AWS Glue 主控台檢視狀態。如需有關任務執行狀態的詳細資訊,請參閱 AWS Glue 任務執行狀態

存取任務監控儀表板

您可以在 Job 下的AWS Glue導覽窗格中選擇「工作執行監視」連結,以存取ETL工作監視儀表板。

任務監控儀表板的概觀

任務監控儀表板提供任務執行的整體摘要,其中狀態為執行中已取消成功失敗。額外的磚可提供整體作業執行成功率、工作的預估DPU使用量、工作狀態計數 (依工作類型、工作者類型和按日期劃分) 的明細。

圖標中的圖形是互動式。您可以選擇圖形中的任何區塊來執行篩選,該篩選僅顯示頁面底部任務執行資料表中的那些任務。

您可以變更此頁面上所顯示資訊的日期範圍,方法是使用日期範圍選取器。當您變更日期範圍時,資訊圖標會調整以顯示目前日期之前指定天數的值。如果您從日期範圍選取器選擇自訂,則也可以使用特定日期範圍。

任務執行檢視

注意

Job 流程和作業執行可存取 90 天的工作執行歷程記錄。

任務執行資源清單會顯示指定日期範圍和篩選的任務。

您可以根據其他準則篩選任務,例如狀態、工作者類型、任務類型和任務名稱。在資料表頂端的篩選方塊中,您可以輸入要用作篩選的文字。當您輸入文字時,資料表結果會以包含相符文字的列進行更新。

您可以從任務監控儀表板上的圖形中選擇元素,來檢視任務的子集。例如,如果您在任務執行摘要圖標中選擇執行中的任務數目,接著任務執行清單僅會顯示目前狀態為 Running 的任務。如果您選擇列在工作者類型明細長條圖中的其中一項,則只有具有相符工作者類型和狀態的任務執行會顯示在任務執行清單中。

任務執行資源清單會顯示任務執行的詳細資訊。您可以選擇資料欄標題來排序資料表中的資料列。此資料表包含以下資訊:

屬性 描述
任務名稱 任務的名稱。
Type

任務環境的類型:

  • Glue ETL:在由管理的 Apache 星火環境中運行AWS Glue。

  • Glue 流:在 Apache Spark 環境中運行,並在數據流ETL上執行。

  • Python shell:將 Python 指令碼作為 Shell 執行。

開始時間

此次任務執行開始的日期和時間。

結束時間

此次任務執行完成的日期和時間。

執行狀態

任務執行目前的狀態。值可以為:

  • STARTING

  • RUNNING

  • STOPPING

  • STOPPED

  • SUCCEEDED

  • FAILED

  • TIMEOUT

執行時間 任務執行消耗資源所需的時間量。
容量

為此工作執行配置的AWS Glue資料處理單元 (DPUs) 數目。如需容量規劃的詳細資訊,請參閱AWS Glue開發人員指南中的監視DPU容量規劃

工作者類型

在任務執行時配置的預先定義工作者類型。值可以為 G.1XG.2XG.4XG.8X

  • G.1X – 選擇這種類型時,您也要提供 工作者數目 的值。每個工作者都會對應至具有 84GB 磁碟 DPU (約 34GB 可用空間) 的 1 個 (4 vCPUs、16 GB 記憶體)。我們建議記憶體密集型任務採用這種工作者類型。此為 AWS Glue 2.0 版本或更新版本任務的預設工作者類型

  • G.2X – 選擇這種類型時,您也要提供 工作者數目 的值。每個工作者都會對應至配備 128GB 磁碟的 2 個 DPU (8 vCPUs、32 GB 記憶體) (大約可用 77GB)。我們建議記憶體密集型任務和執行機器學習轉換的任務採用這種工作者類型。

  • G.4X – 選擇這種類型時,您也要提供 工作者數目 的值。每個工作者都會對應至 4 個 DPU (16 vCPUs、64 GB 記憶體),並配備 256GB 磁碟 (約 235GB 可用空間)。我們建議工作負載包含最嚴苛轉換、彙總、聯結和查詢的任務採用這種工作者類型。此 Worker 類型僅適用於下列 AWS 區域的 3.0 AWS Glue 版或更新版本 Spark ETL 工作:美國東部 (俄亥俄)、美國東部 (維吉尼亞北部)、美國西部 (奧勒岡)、亞太區域 (新加坡)、亞太區域 (雪梨)、亞太區域 (東京)、加拿大 (中部)、歐洲 (法蘭克福)、歐洲 (愛爾蘭) 和歐洲 (斯德哥爾摩)。

  • G.8X – 選擇這種類型時,您也要提供 工作者數目 的值。每個工作者都會對應至具有 512GB 磁碟 DPU (約 487GB 可用空間) 的 8 個 (32 vCPUs、128 GB 記憶體)。我們建議工作負載包含最嚴苛轉換、彙總、聯結和查詢的任務採用這種工作者類型。此 Worker 類型僅適用於 3.0 AWS Glue 版或更新版本的 Spark ETL 工作,與 G.4X Worker 類型支援的相同 AWS 區域中。

DPU小時

預估用DPUs於工作執行的數目。A DPU 是處理能力的相對度量。DPUs用於判斷執行工作的成本。如需詳細資訊,請參閱 AWS Glue 定價頁面。

您可以選取清單中的任何任務執行,並檢視其他資訊。選擇任務執行,然後進行下列任一項目:

  • 選擇動作選單以及檢視任務選項,以在視覺化編輯器中檢視任務。

  • 選擇動作選單以及停止執行選項,停止任務的目前執行。

  • 選擇檢視 CloudWatch 記錄檔按鈕,檢視該工作的工作執行日誌。

  • 選擇檢視詳細資料以檢視任務執行詳細資料頁面。

檢視任務執行日誌

您可以用多種方式來檢視任務日誌:

  • 在 [視] 頁面的 [Job 執行] 表格中,選擇工作執行,然後選擇 [檢視 CloudWatch 記錄]。

  • 在視覺化任務編輯器中,在執行索引標籤中,選擇要檢視日誌的超連結:

    • 日誌 – 啟用任務執行的連續記錄時,所寫入 Apache Spark 任務日誌的連結。當您選擇此連結時,會將您帶到記 Amazon CloudWatch 錄群組中的記/aws-glue/jobs/logs-v2錄檔。默認情況下,日誌排除非有用的 Apache Hadoop YARN 心跳和 Apache 的星火驅動程序或執行程序日誌消息。如需持續記錄的詳細資訊,請參閱 AWS Glue 開發人員指南中的持續記錄 AWS Glue 任務

    • 錯誤日誌 – 連結至此次任務執行時寫入 stderr 的日誌。當您選擇此連結時,它會帶您前往 /aws-glue/jobs/error 日誌群組中的 Amazon CloudWatch 日誌。您可以使用這些日誌來檢視任務執行期間所發生任何錯誤的詳細資訊。

    • 輸出日誌 – 連結至此次任務執行時所寫入 stdout 的日誌。當您選擇此連結時,它會帶您前往 /aws-glue/jobs/output 日誌群組中的 Amazon CloudWatch 日誌。您可以使用這些日誌來查看在 AWS Glue Data Catalog 中建立的資料表的所有詳細資訊,以及所發生的任何錯誤。

檢視任務執行的詳細資訊

您可以在監控頁面的任務執行清單選擇任務,然後選擇檢視執行詳細資訊以查看該任務執行的詳細資訊。

任務執行詳細資訊頁面上顯示的資訊包括:

屬性 描述
任務名稱 任務的名稱。
執行狀態

任務執行目前的狀態。值可以為:

  • STARTING

  • RUNNING

  • STOPPING

  • STOPPED

  • SUCCEEDED

  • FAILED

  • TIMEOUT

Glue 版本 任務執行所使用的 AWS Glue 版本。
最近嘗試 此任務執行的自動重試嘗試次數。
開始時間

此次任務執行開始的日期和時間。

結束時間

此次任務執行完成的日期和時間。

開始時間

準備執行任務所花的時間。

執行時間

執行任務指令碼所花的時間。

觸發條件名稱

與任務相關聯的觸發名稱。

上次修改時間

上次修改任務的日期。

安全組態

任務的安全組態,包括 Amazon S3 加密、加 CloudWatch 密和任務書籤加密設定。

逾時 任務執行逾時閾值。
已配置容量

為此工作執行配置的AWS Glue資料處理單元 (DPUs) 數目。如需容量規劃的詳細資訊,請參閱AWS Glue開發人員指南中的監視DPU容量規劃

最大容量

任務執行的可用容量上限。

工作者數目 用於任務執行的工作者數量。
工作者類型

配置給任務執行的預先定義工作者類型。值可以為 G.1XG.2X

  • G.1X – 選擇這種類型時,您也要提供 工作者數目 的值。每個工作者對應至 1 個 DPU (4 vCPUs、16 GB 記憶體、64 GB 磁碟),並為每個背景工作者提供 1 個執行程式。我們建議記憶體密集型任務採用這種工作者類型。此為 AWS Glue 2.0 版本或更新版本任務的預設工作者類型

  • G.2X – 選擇這種類型時,您也要提供 工作者數目 的值。每個工作者映射到 2 個DPUs(8vCPUs,32 GB 的內存,128 GB 的磁盤),並為每個工作者提供 1 個執行程序。我們建議記憶體密集型任務和執行機器學習轉換的任務採用這種工作者類型。

日誌 連續記錄之任務日誌的連結 (/aws-glue/jobs/logs-v2)。
輸出日誌 任務輸出日誌檔案的連結 (/aws-glue/jobs/output)。
錯誤日誌 任務錯誤日誌檔案的連結 (/aws-glue/jobs/error)。

也可以檢視下列其他項目,可在檢視最近工作執行的資訊時使用它們。如需詳細資訊,請參閱檢視最近任務執行的資訊

Amazon CloudWatch 檢視 Spark 工作執行的指標

您可以在工作執行的詳細資訊頁面的「執行詳細資訊」段落下方,檢視工作測量結果。 AWS Glue Studio會 Amazon CloudWatch 針對每個工作執行傳送工作指標至。

AWS Glue Amazon CloudWatch 每 30 秒報告一次指標。 AWS Glue 指標表示先前回報數值中的差異值。適當時,指標儀表板將會彙總 (加總) 30 秒的值,以取得最後完整一分鐘的值。不過, AWS Glue 傳遞至的 Apache Spark 量度通常 Amazon CloudWatch 是絕對值,代表報告時的目前狀態。

注意

您必須設定您的帳戶才能存取 Amazon CloudWatch、。

指標提供任務執行的相關資訊,例如:

  • ETL資料移動 — 從 Amazon S3 讀取或寫入的位元組數。

  • 記憶體設定檔:使用的堆集 — Java 虛擬機器 (JVM) 堆積使用的記憶體位元組數目。

  • 記憶體設定檔:堆積使用量 — JVM 堆積使用的記憶體分數 (比例:0—1),以百分比顯示。

  • CPU負載 — 使用的CPU系統負載分數 (比例:0—1),以百分比顯示。

檢視 Ray 工作執行的 Amazon CloudWatch 測量結果

您可以在工作執行的詳細資訊頁面的「執行詳細資訊」段落下方,檢視工作測量結果。 AWS Glue Studio會 Amazon CloudWatch 針對每個工作執行傳送工作指標至。

AWS Glue Amazon CloudWatch 每 30 秒報告一次指標。 AWS Glue 指標表示先前回報數值中的差異值。適當時,指標儀表板將會彙總 (加總) 30 秒的值,以取得最後完整一分鐘的值。不過, AWS Glue 傳遞至的 Apache Spark 量度通常 Amazon CloudWatch 是絕對值,代表報告時的目前狀態。

注意

您必須設定您的帳戶才能存取 Amazon CloudWatch,如中所述。

在 Ray 任務中,您可以檢視下列彙總指標圖表。您可以使用這些資料建立叢集和任務的設定檔,並可存取有關每個節點的詳細資訊。支援這些圖形的時間序列資料可用 CloudWatch 於進一步分析。

任務設定檔:任務狀態

顯示系統中的 Ray 任務數量。每個任務生命週期都有自己的時間序列。

任務設定檔:任務名稱

顯示系統中的 Ray 任務數量。只會顯示擱置中和作用中的任務。每種類型的任務 (依名稱) 都有自己的時間序列。

叢集設定檔:使用CPUs中

顯示使用的CPU核心數目。每個節點都有自己的時間序列。節點由 IP 地址識別,這些 IP 地址是暫時的,僅用於識別。

叢集設定檔:物件存放區記憶體使用量

顯示 Ray 物件快取的記憶體使用量。每個記憶體位置 (實體記憶體、磁碟上的快取,以及 Amazon S3 中的溢出) 都有自己的時間序列。物件存放區管理叢集中所有節點的資料儲存。如需詳細資訊,請參閱 Ray 文件中的物件

叢集設定檔:節點計數

顯示為叢集佈建的節點數量。

節點詳細資訊:CPU使用

以百分比顯示每個節點的CPU使用率。每個系列都會顯示節點上所有核心的CPU使用量彙總百分比。

節點詳細資訊:記憶體使用量

顯示每個節點的記憶體使用量 (GB)。每個系列都會顯示節點上所有程序之間的彙總記憶體,包括 Ray 任務和 Plasma 存放程序。這不會反映存放到磁碟或溢出到 Amazon S3 的物件。

節點詳細資訊:磁碟使用量

顯示每個節點上的磁碟使用量 (GB)。

節點詳細資訊:磁碟 I/O 速度

顯示每個節點上的磁碟 I/O (KB/s)。

節點詳細資訊:網路 I/O 輸送量

顯示每個節點上的網路 I/O (KB/s)。

節點詳細資料:由射線元件CPU使用

顯示核心部分的CPU使用情況。每個節點上的每個 Ray 元件都有自己的時間序列。

節點詳細資訊:Ray 元件的記憶體使用量

顯示記憶體使用量 (GiB)。每個節點上的每個 Ray 元件都有自己的時間序列。