剖析包含 JSON 資料的字串資料欄 - AWS Glue

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

剖析包含 JSON 資料的字串資料欄

此轉換會剖析包含 JSON 資料的字串資料欄,並將其轉換為結構或陣列資料欄,具體取決於 JSON 是物件還是陣列。(選用) 您可以保留已剖析資料欄和原始資料欄。

您可以使用選擇性的取樣來提供或推斷 JSON 結構描述 (若為 JSON 物件)。

將「剖析 JSON 資料欄」轉換節點新增至您的任務圖表
  1. 開啟資源面板,然後選擇剖析 JSON 資料欄,將新轉換新增至您的任務圖表。新增節點時選取的節點將成為其父節點。

  2. 在節點屬性面板中,您可以輸入任務圖表中節點的名稱。如果尚未選取節點父項,請從節點父項清單選擇用作轉換之輸入來源的節點。

  3. 轉換索引標籤上,選取包含 JSON 字串的資料欄。

  4. (選用) 在轉換索引標籤上,使用 SQL 語法輸入 JSON 資料所遵循的結構描述,例如:如果是物件,則為 "field1 STRING, field2 INT";如果是陣列,則為 "ARRAY<STRING>"。

    如果是陣列就需要結構描述,但如果是物件,若未指定結構描述,則將使用資料來推斷結構描述。若要減少推斷結構描述的影響 (特別是在大型資料集上),您可以輸入用於推斷結構描述的範例比例,以避免讀取整筆資料兩次。如果值小於 1,則會使用隨機範例的對應比例來推斷結構描述。如果資料可靠且物件在資料列之間保持一致,則可以使用小比例 (例如 0.1) 來改善效能。

  5. (選用) 如果要同時保留原始字串資料欄和已剖析的資料欄,您可以在轉換索引標籤上輸入新的資料欄名稱。