將 Data Catalog 資料表用於資料來源 - AWS Glue

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

將 Data Catalog 資料表用於資料來源

對於除 Amazon S3 和連接器以外的所有資料來源,資料表必須存在於 AWS Glue Data Catalog,以取得您選擇的來源類型。AWS Glue 不會建立 Data Catalog 資料表。

根據 Data Catalog 資料表設定資料來源節點
  1. 前往新任務或已儲存任務的視覺化編輯器。

  2. 在任務圖表中選擇資料來源節點。

  3. 選擇 Data source properties (資料來源屬性) 索引標籤,然後輸入下列資訊:

    • S3 source type (S3 來源類型):(僅適用於 Amazon S3 資料來源) 選擇 Select a Catalog table (選取目錄資料表) 以使用現有 AWS Glue Data Catalog 資料表。

    • Database (資料庫):在 Data Catalog 中選擇包含您要用於此任務之來源資料表的資料庫。您可以使用搜尋欄位來依名稱搜尋資料庫。

    • Table (資料表):從清單中選擇與來源資料相關聯的資料表。此資料表必須已存在於 AWS Glue Data Catalog。您可以使用搜尋欄位來依名稱搜尋資料表。

    • Partition predicate (分割區述詞):(僅適用於 Amazon S3 資料來源) 輸入以 Spark SQL 為基礎的布林表達式,該表達式僅包含分割欄,例如:"(year=='2020' and month=='04')"

    • Temporary directory (暫時目錄): (僅適用於 Amazon Redshift 資料來源) 輸入 Amazon S3 中工作目錄位置的路徑,您的 ETL 任務可以在此處寫入暫時的中繼結果。

    • Role associated with the cluster (與叢集相關聯的角色): (僅適用於 Amazon Redshift 資料來源) 輸入您的 ETL 任務要使用的角色,該角色包含 Amazon Redshift 叢集的許可。如需更多詳細資訊,請參閱 資料來源和資料目標許可