本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。
將 Data Catalog 資料表用於資料來源
對於除 Amazon S3 和連接器以外的所有資料來源,資料表必須存在於 AWS Glue Data Catalog,以取得您選擇的來源類型。AWS Glue 不會建立 Data Catalog 資料表。
根據 Data Catalog 資料表設定資料來源節點
-
前往新任務或已儲存任務的視覺化編輯器。
-
在任務圖表中選擇資料來源節點。
-
選擇 Data source properties (資料來源屬性) 索引標籤,然後輸入下列資訊:
-
S3 source type (S3 來源類型):(僅適用於 Amazon S3 資料來源) 選擇 Select a Catalog table (選取目錄資料表) 以使用現有 AWS Glue Data Catalog 資料表。
-
Database (資料庫):在 Data Catalog 中選擇包含您要用於此任務之來源資料表的資料庫。您可以使用搜尋欄位來依名稱搜尋資料庫。
-
Table (資料表):從清單中選擇與來源資料相關聯的資料表。此資料表必須已存在於 AWS Glue Data Catalog。您可以使用搜尋欄位來依名稱搜尋資料表。
-
Partition predicate (分割區述詞):(僅適用於 Amazon S3 資料來源) 輸入以 Spark SQL 為基礎的布林表達式,該表達式僅包含分割欄,例如:
"(year=='2020' and month=='04')"
-
Temporary directory (暫時目錄): (僅適用於 Amazon Redshift 資料來源) 輸入 Amazon S3 中工作目錄位置的路徑,您的 ETL 任務可以在此處寫入暫時的中繼結果。
-
Role associated with the cluster (與叢集相關聯的角色): (僅適用於 Amazon Redshift 資料來源) 輸入您的 ETL 任務要使用的角色,該角色包含 Amazon Redshift 叢集的許可。如需更多詳細資訊,請參閱 資料來源和資料目標許可。
-