使用規則運算式擷取字串片段 - AWS Glue

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

使用規則運算式擷取字串片段

此轉換使用規則運算式擷取字串片段,並從中建立新資料欄,或使用 Regex 群組建立多個資料欄。

將「Regex 擷取器」轉換節點新增至您的任務圖表
  1. 開啟資源面板,然後選擇 Regex 擷取器,將新轉換新增至您的任務圖表。新增節點時選取的節點將成為其父節點。

  2. 在節點屬性面板中,您可以輸入任務圖表中節點的名稱。如果尚未選取節點父項,請從節點父項清單選擇用作轉換之輸入來源的節點。

  3. 轉換索引標籤上,輸入規則運算式及其需要套用的資料欄。然後輸入要存放相符字串的新資料欄名稱。只有當來源資料欄為 Null 時,新資料欄才會是 Null。如果 Regex 不相符,則資料欄將為空白。

    如果 Regex 使用群組,則會有一個用逗號分隔的對應資料欄名稱,但是您可以透過將資料欄名稱保留為空白來跳過群組。

    例如,如果您有一個資料欄為 "purchase_date",其中包含使用長和短 ISO 日期格式的字串,然後您想要擷取年、月、日和小時 (如果可用)。請注意小時群組為選用,否則在不可用的資料列中,擷取的所有群組都將是空白字串 (因為 Regex 不相符)。在這種情況下,我們不希望群組使時間可選,而是讓其成為內部時間,因此我們將名稱留空,使其不會被擷取 (該群組將包括 T 字元)。

    螢幕擷取畫面顯示為 Regex 擷取器設定的規則運算式。

    產生資料預覽:

    螢幕擷取畫面顯示為 Regex 擷取器設定的資料預覽。