使用編目器填入資料目錄 - AWS Glue

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

使用編目器填入資料目錄

您可以使用 AWS Glue 編目程式 來填入資 AWS Glue Data Catalog 料庫和資料表。這是大多數用 AWS Glue 戶使用的主要方法。爬蟲程式可以在單一執行中抓取多個資料存放區。一旦完成,爬蟲程式即會在 Data Catalog 中建立或更新一或多個資料表。您在 AWS Glue 中定義的擷取、轉換和載入 (ETL) 任務,會將這些 Data Catalog 資料表做為來源和目標使用。ETL 任務可讀取和寫入來源及目標 Data Catalog 資料表中指定的資料存放區。

工作流程

以下任務流程圖顯示 AWS Glue 爬蟲程式如何與資料存放區和其他元素互動以填入資料目錄。

任務流程顯示 AWS Glue 爬蟲程式如何以 5 個基本步驟填入資料目錄。

以下是爬蟲程式填入 AWS Glue Data Catalog的一般任務流程:

  1. 爬蟲程式會執行您選擇的任何自訂「分類器」以推斷資料的結構描述。您為自訂分類器提供程式碼,分類器依照您指定的順序執行。

    第一個自訂分類器成功識別資料結構可用來建立結構描述。清單中較低的自訂分類器會被略過。

  2. 如果沒有自訂分類器符合您資料的結構描述,內建分類器將嘗試識別您資料的結構描述。可識別 JSON 的分類器即是一種內建分類器的範例。

  3. 爬蟲程式連接到資料存放區。有些資料存放區需要連線屬性才能讓爬蟲程式存取。

  4. 為您的資料建立經過推斷的結構描述。

  5. 爬蟲程式將中繼資料寫入資料目錄。資料表定義包含與資料存放區中的資料有關的中繼資料。資料表寫入資料庫,該資料庫是資料目錄中的資料表容器。資料表的屬性包含分類,它是由推斷資料表結構描述的分類器所建立的標籤。