任務編輯器功能 - AWS Glue

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

任務編輯器功能

任務編輯器提供下列功能,用以建立和編輯任務。

  • 任務的視覺化圖表,每個任務任務都有一個節點:用於讀取資料的資料來源節點;用於修改資料的轉換節點;用於寫入資料的資料目標節點。

    您可以在任務圖表中檢視和設定每個節點的屬性。您也可以檢視任務圖表中每個節點的結構描述和範例資料。這些功能可協助您驗證任務是否正在以正確的方式修改和轉換資料,而不必執行任務。

  • [Script viewing and editing (指令碼檢視和編輯)] 索引標籤,您可以在其中修改為任務產生的程式碼。

  • [Job details (任務詳細資訊)] 索引標籤,您可以在其中設定各種設定,以自訂 AWS Glue ETL 任務執行的環境。

  • 「[Runs (執行)] 索引標籤,您可以在此檢視任務的目前和先前執行、檢視任務執行的狀態,以及存取任務執行的記錄。

  • 「資料品質」標籤,您可在其中將資料品質規則套用至任務。

  • [Schedules (排程)] 索引標籤,您可以在其中設定任務的開始時間,或設定週期性任務執行。

  • 「版本控制」標籤,您可在其中設定 Git 服務,以搭配任務使用。

在視覺化任務編輯器中使用結構描述預覽

建立或編輯任務時,您可以使用 Output schema (輸出結構描述) 索引標籤來檢視您資料的結構描述。

在查看結構描述之前,任務編輯器需要存取資料來源的許可。您可以在編輯器的 [Job details (任務詳細資訊)] 索引標籤或節點的 Output schema (輸出結構描述) 索引標籤中指定 IAM 角色。如果 IAM 角色具有存取資料來源的所有必要許可,則您可以在節點的 Output schema (輸出結構描述) 索引標籤檢視結構描述。

在視覺化任務編輯器中使用資料預覽

資料預覽可協助您使用資料範例建立和測試任務,而不必重複執行任務。透過使用資料預覽,您可以:

  • 測試 IAM 角色,以確保您可以存取資料來源或資料目標。

  • 檢查轉換是否以預期的方式修改資料。例如,如果您使用篩選器轉換,您可以確定篩選器選取正確的資料子集。

  • 檢查資料。如果您的資料集包含具有多種類型值的欄,則資料預覽會顯示這些欄的元組清單。每個元組會包含資料類型及其值。

建立或編輯任務時,您可以使用任務畫布下方的資料預覽標籤來檢視您的資料範例。當任務上已設定角色或帳戶中已設定預設 IAM 角色時,新的資料預覽任務階段將自動啟動。如果先前尚未設定角色,您可以透過選取角色來啟動工作階段。

螢幕擷取畫面顯示節點的 [Data preview (資料預覽)] 索引標籤。
注意

您針對資料預覽任務階段所選擇的角色亦將用於任務。

您可以按一下資訊圖示,查看工作階段的狀態和進度,以及工作階段詳細資料。

當工作階段準備就緒時,AWS Glue Studio 將會載入所選節點的資料。您可以在進行時檢視完成百分比

螢幕擷取畫面顯示已啟動之節點的「資料預覽」索引標籤。

當您撰寫視覺化任務時,AWS Glue Studio 將會在您切換輸出結構描述索引標籤中的推論任務階段的結構描述時,自動更新選取之節點的結構描述。

螢幕擷取畫面顯示已啟動之節點的「資料預覽」索引標籤。

設定資料預覽偏好設定:

選擇設定圖示 (齒輪符號),以設定資料預覽的偏好設定。這些設定適用於任務圖表中的所有節點。您可以:

  • 選擇將文字從一行換至下一行。此選項預設為啟用。

  • 變更列數 (預設為 200)

  • 選擇 IAM 角色或視需要建立 IAM 角色

  • 選擇在您撰寫任務時自動開始新的任務階段。這會在撰寫任務時佈建新的互動式工作階段。此設定會在帳戶層級套用。完成設定後,便會在編輯任何任務時套用至您帳戶中的所有使用者。

  • 選擇自動推論結構描述。系統會針對選取的節點自動推論輸出結構描述

  • 選擇自動匯入 AWS Glue 程式庫。此功能相當實用,可在新增需要工作階段重新啟動的轉換時,防止資料預覽重新啟動新的工作階段

螢幕擷取畫面會顯示您可以為資料預覽功能設定的偏好設定。

其他功能包括:

  • 選擇 Previewing x of y fields (預覽 y 欄位中的 x) 按鈕以選取要預覽的欄 (欄位)。當您使用預設設定來預覽資料時,任務編輯器會顯示資料集的前 5 欄。您可以將此變更為全部顯示或全不顯示 (不建議使用)。

  • 水平和垂直捲動資料預覽視窗。

  • 使用最大化按鈕,將「資料預覽」標籤展開至覆蓋任務圖表,以便進一步檢視資料和資料結構。同樣地,請使用最小化按鈕將「資料預覽」標籤最小化。您也可以抓取控點窗格並向上拖曳,以展開資料預覽標籤。

    螢幕擷取畫面顯示了最小化和最大化按鈕反白顯示的「資料預覽」窗格,以及可用於垂直擴展「資料預覽」窗格的控點窗格。
  • 使用結束工作階段來停止資料預覽。在您停止工作階段時,可以選擇新的 IAM 角色,並設定其他設定 (例如開啟或關閉設定以自動啟動新工作階段、推斷結構描述,或匯入 AWS Glue 程式庫),然後再次啟動工作階段。

使用資料預覽時的限制

當您使用資料預覽時,可能會遇到下列限制。

  • 第一次選擇 [Data preview (資料預覽)] 索引標籤時,您必須選擇 IAM 角色。此角色必須具有必要的許可,才能存取建立資料預覽所需的資料和其他資源。

  • 提供 IAM 角色之後,需要一段時間才能檢視資料。對於資料少於 1 GB 的資料集,最多可能需要一分鐘的時間。如果您有大型資料集,您應該使用分割區來改善載入時間。直接從 Amazon S3 載入資料具有最佳效能。

  • 如果您有非常大的資料集,而且查詢用於資料預覽的資料需要超過 15 分鐘,請求將會逾時。資料預覽有 30 分鐘的閒置逾時時間。若要減少此情況,請縮減資料集大小以使用資料預覽。

  • 依預設,您會在「資料預覽」標籤中看到前 50 個資料欄。如果欄沒有資料值,您會收到一則訊息,指出沒有資料可顯示。您可以增加取樣的列數,或選取不同的欄以查看資料值。

  • 資料預覽目前不支援串流資料來源或使用自訂連接器的資料來源。

  • 一個節點上的錯誤會影響整個任務。如果任何一個節點在資料預覽中發生錯誤,則錯誤將會顯示在所有節點上,直到您修正為止。

  • 如果您變更任務的資料來源,則可能需要更新該資料來源的子節點以符合新的結構描述。例如,如果您有可修改欄的 ApplyMapping 節點,而該欄不存在於取代資料來源中,則需要更新 ApplyMapping 轉換節點。

  • 如果您檢視 SQL 查詢轉換節點的 [Data preview (資料預覽)] 索引標籤,且 SQL 查詢使用不正確的欄位名稱,則 [Data preview (資料預覽)] 索引標籤會顯示錯誤。

指令碼程式碼產生

使用視覺化編輯器建立任務時,會自動為您產生 ETL 程式碼。AWS Glue Studio 會建立功能完整的任務指令碼,並將其儲存在 Amazon S3 位置。

AWS Glue Studio 產生兩種形式的程式碼:原始版本或經典版本,以及更新的簡化版本。依預設,使用新的程式碼產生器建立任務指令碼。您可以使用 Script (指令碼) 索引標籤上的經典程式碼產生器產生任務指令碼,方法是選擇 Generate classic script (產生經典指令碼) 切換按鈕。

在新版本的產生程式碼中,一些差異包括:

  • 大型註解區塊不再新增至指令碼

  • 程式碼中的輸出結構會使用您在視覺化編輯器中指定的節點名稱。在類別指令碼中,輸出結構只是命名為 DataSource0DataSource1Transform0Transform1DataSink0DataSink1,以此類推。

  • 長命令會分割成多行,以避免為檢視完整命令而捲動頁面。

AWS Glue Studio 中的新功能需要新版本的程式碼產生,並且不適用於經典程式碼指令碼。當您嘗試執行這些任務時,系統會提示您更新任務。