使用「聯集」來合併資料列 - AWS Glue

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

使用「聯集」來合併資料列

如果您想要合併具有相同結構描述的多個資料來源的資料列,可以使用「聯集」轉換節點。

「聯集」轉換有兩種類型:

  1. ALL:套用 ALL 時,產生的聯集不會移除重複的資料列。

  2. DISTINCT:套用 DISTINCT 時,產生的聯集會移除重複的資料列。

聯集與聯結

您可以使用「聯集」來合併資料列。您可以使用「聯結」來合併資料欄。

在視覺化 ETL 畫布中使用「聯集」轉換
  1. 新增多個資料來源以執行聯集轉換。若要新增資料來源,請開啟資源面板,然後從「來源」索引標籤中選擇資料來源。在使用「聯集」轉換之前,您必須確保聯集中涉及的所有資料來源都具有相同的結構描述和結構。

  2. 當您至少有兩個要使用「聯集」轉換合併的資料來源時,請將其新增至畫布以建立「聯集」轉換。開啟畫布上的資源面板並搜尋 'Union'。您也可以選擇資源面板中的「轉換」索引標籤,向下捲動直到找到「聯集」轉換,然後選擇聯集

  3. 選取任務畫布上的「聯集」節點。在「節點屬性」視窗中,選擇要連線至「聯集」轉換的父節點。

  4. AWS Glue 檢查相容性,以確保「聯集」轉換可套用至所有資料來源。如果資料來源的結構描述相同,則會允許執行此操作。如果資料來源沒有相同的結構描述,則會顯示無效的錯誤訊息:“此聯集的輸入結構描述不相同。請考慮使用 ApplyMapping 來符合結構描述。」 若要修正此問題,請選擇使用 ApplyMapping

  5. 選擇聯集類型。

    1. ALL:依預設會選取「所有聯集」類型;如果資料組合中有任何資料列,則會產生重複的資料列。

    2. DISTINCT:如果您想要從產生的資料組合中移除重複資料列,請選擇 DISTINCT。