使用「分割字串」轉換來分解字串資料欄 - AWS Glue

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

使用「分割字串」轉換來分解字串資料欄

「分割字串」轉換允許使用規則運算式將字串分解為字符陣列,以定義分割方式。然後,您可以將資料欄保留為陣列類型,或在此之後套用陣列至資料欄轉換,以將陣列值擷取到頂層欄位中,並假設每個字符都有我們事先知道的含義。此外,如果字符的順序不重要 (例如一組類別),則可以使用分解轉換為每個值產生一個單獨的資料列。

例如,您可以使用逗號作為模式來分割 “categories” 資料欄,以新增 “categories_arr” 資料欄。

product_id categories categories_arr
1 sports,winter [sports, winter]
2 garden,tools [garden, tools]
3 videogames [videogames]
4 game,boardgame,social [game, boardgame, social]
若要新增「分割字串」轉換:
  1. 開啟資源面板,然後選擇「分割字串」,將新轉換新增至您的任務圖表。新增節點時選取的節點將成為其父節點。

  2. (選用) 在節點屬性索引標籤上,您可以輸入任務圖表中節點的名稱。如果尚未選取節點父項,請從節點父項清單選擇用作轉換之輸入來源的節點。

  3. 轉換索引標籤上,選擇要分割的資料欄,然後輸入要用於分割字串的模式。在大多數情況下,您只需輸入字元,除非它作為規則運算式具有特殊含義並需要逸出。需要逸出的字元為 \.[]{}()<>*+-=!?^$|,字元前面加上反斜線。例如,如果您想透過一個點 ('.') 分隔,則需要輸入 \.。但是,逗號沒有特殊含義,可以按以下方式指定:,

    螢幕擷取畫面顯示「分割字串」轉換的「轉換」索引標籤。
  4. (選用) 如果要保留原始字串資料欄,則可以為新陣列資料欄輸入名稱,這樣可以同時保留原始字串資料欄和新的記號化陣列資料欄。