編輯 AWS Glue 受管資料轉換節點 - AWS Glue

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

編輯 AWS Glue 受管資料轉換節點

AWS Glue Studio 會提供兩種類型的轉換:

  • AWS Glue 原生轉換 – 適用於所有使用者,並由 AWS Glue 管理。

  • 自訂視覺化轉換 – 允許您上傳自己的轉換以在 AWS Glue Studio 中使用

AWS Glue 受管資料轉換節點

AWS Glue Studio 提供一組內建轉換,讓您用於處理資料。您的資料從任務圖表中的一個節點傳遞到稱為 DynamicFrame 的資料結構中的另一個節點,這是 Apache Spark SQL DataFrame 的擴展。

在任務的預先填入圖表中,資料來源和資料目標節點之間是變更結構描述轉換節點。您可以設定此轉換節點來修改資料,也可以使用其他轉換。

AWS Glue Studio 提供以下內建轉換:

  • ChangeSchema:將資料來源中的資料屬性索引鍵映射至資料目標中的資料屬性索引鍵。您可以重新命名索引鍵、修改索引鍵的資料類型,以及選擇要從資料集中捨棄哪些索引鍵。

  • SelectFields:選擇您要保留的資料屬性索引鍵。

  • DropFields:選擇您要捨棄的資料屬性索引鍵。

  • RenameField:重新命名單一資料屬性索引鍵。

  • Spigot:將資料範例寫入 Amazon S3 儲存貯體。

  • Join:使用指定資料屬性索引鍵上的比較片語,將兩個資料集聯結為一個資料集。可以使用內、外、左、右、左半、左反聯結。

  • 聯集:合併多個具有相同結構描述之資料來源的資料列。

  • SplitFields:將資料屬性索引鍵分成兩個 DynamicFrames。輸出是 DynamicFrames 的集合:一個具有所選資料屬性索引鍵,另一個具有其餘資料屬性索引鍵。

  • SelectFromCollection:請從 DynamicFrames 集合選擇一個 DynamicFrame。輸出為所選的 DynamicFrame

  • FillMissingValues:尋找遺失值之資料集中的記錄,並新增具有由插補決定建議值的新欄位。

  • Filter (篩選條件):根據篩選條件,將資料集分割成兩個。

  • 刪除 null 欄位:如果資料行中的所有值都為 "null",則從資料集中刪除此行。

  • 刪除重複項:選擇符合整個資料列或指定索引鍵,從資料來源中移除資料列。

  • SQL:在文字輸入欄位中輸入 SparkSQL 程式碼,以使用 SQL 查詢來轉換資料。輸出是一個單一 DynamicFrame

  • 彙總:在選定的欄位和列上執行計算 (例如平均值、總和、最小值、最大值),並建立一個新欄位來包含新計算的值。

  • 壓平合併:將結構內的欄位擷取到頂層欄位。

  • UUID:針對每個資料列新增具有通用不重複識別碼的資料欄。

  • 識別符:針對每個資料列新增含有數字識別符的資料欄。

  • 時間戳記:將資料欄轉換為時間戳記類型。

  • 格式化時間戳記:將時間戳記資料欄轉換為格式化字串。

  • 條件式路由器轉換:對傳入資料套用多個條件。傳入資料的每個資料列均依據群組篩選條件進行評估,並將其處理到其對應的群組。

  • 串連資料欄轉換:使用具有選用間隔符號之其他資料欄的值來構建新的字串資料欄。

  • 分割字串轉換:使用規則運算式將字串分解為字符陣列,以定義分割方式。

  • 陣列至資料欄轉換:將陣列類型之資料欄的部分或全部元素擷取到新資料欄中。

  • 新增目前時間戳記轉換:以處理資料的時間來標記資料列。這對於稽核目的或追蹤資料管道中的延遲非常實用。

  • 樞紐資料列至資料欄轉換:透過旋轉成為新資料欄的所選資料欄上的唯一值來彙總數值。如果選取多資料欄,則會串連這些值以命名新資料欄。

  • 取消樞紐資料欄至資料列:將資料欄轉換為新資料欄的值,並為每個唯一值產生一個資料列。

  • 自動平衡處理轉換:在工作者之間更好地重新分發資料。這對資料不平衡或其來源不允許進行足夠平行處理的情況非常實用。

  • 衍生資料欄轉換:根據數學公式或 SQL 運算式定義新資料欄,您可以在其中使用資料中的其他資料欄,以及常數和常值。

  • 查詢轉換:當索引鍵符合資料中定義的查詢資料欄時,從已定義的型錄資料表新增資料欄。

  • 分解陣列或映射成資料列轉換:將巢狀結構中的值擷取到更容易操作的個別資料列中。

  • 記錄比對轉換:調用現有的記錄比對機器學習資料分類轉換。

  • 移除 Null 資料列轉換:從所有資料欄為 Null 或空白的資料集資料列移除。

  • 解析 JSON 資料欄轉換:解析包含 JSON 資料的字串資料欄,並將其轉換為結構或陣列資料欄,具體取決於 JSON 是物件還是陣列。

  • 擷取 JSON 路徑轉換:從 JSON 字串資料欄擷取新資料欄。

  • 從規則運算式中擷取字串片段:使用規則運算式擷取字串片段,並從中建立新資料欄,或在使用規則運算式組時建立多個資料欄。

  • Custom transform (自訂轉換):在文字輸入欄位中輸入程式碼,以使用自訂轉換。輸出是 DynamicFrames 的集合。