Aurora Postgre 相容與 SQL的整合 AWS Glue - AWS 方案指引

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

Aurora Postgre 相容與 SQL的整合 AWS Glue

AWS Glue 是一種全受管擷取、轉換和載入 (ETL) 服務,用於準備和載入資料以供分析。您可以將任何資料處理和分析工作流程 AWS Glue 與 Amazon Aurora Postgre SQL相容版本整合。

AWS Glue 使用案例和高階步驟

與 整合的 Aurora Postgre SQL相容 AWS Glue 支援下列使用案例:

  • 資料倉儲和分析 ‒ 使用 AWS Glue 與 Aurora Postgre SQL相容 的整合來建置資料倉儲和分析解決方案。 AWS Glue 可以從 Aurora Postgre SQL相容資料庫擷取資料,並根據您的需求進行轉換。然後, AWS Glue 可以將轉換的資料載入資料倉儲,例如 Amazon Redshift 或 Amazon Athena,以進行進階分析和報告。

  • 資料湖建立 ‒ 用來從 Aurora Postgre SQL相容 AWS Glue 擷取資料,並將其載入存放在 Amazon S3 中的資料湖。然後,您可以將此資料湖用於各種目的,例如機器學習、資料探索或饋送其他分析系統。

  • ETL 管道 ‒ 使用無 AWS Glue 伺服器ETL服務來建置強大的資料管道。您可以從 Aurora Postgre SQL相容擷取資料,並使用 Apache Spark 或 執行複雜的轉換 PySpark。您可以將已處理的資料載入 Amazon S3 或 Amazon Redshift 等目標,也可以將其載入回 Aurora Postgre SQL相容。

  • 資料目錄和中繼資料管理 ‒ AWS Glue Data Catalog 用於從 Aurora Postgre SQL相容資料庫和資料表中自動編目和目錄中繼資料。 AWS 服務 例如 Amazon Athena 和 Amazon Redshift Spectrum,可以使用此集中式中繼資料儲存庫來查詢和分析資料。

  • 機器學習的資料準備 – AWS Glue 用於從與機器學習 (ML) 工作負載SQL相容的 Aurora Postgre 準備資料。處理的資料可以載入 Amazon SageMaker AI 或其他 ML 服務,以訓練和部署模型。

  • 資料遷移和複寫 ‒ 雖然 AWS Database Migration Service (AWS DMS) 是資料庫遷移的主要服務,但您也可以使用 AWS Glue。將資料從 Aurora Postgre SQL相容遷移或複寫至其他資料存放區,例如 Amazon S3、Amazon Redshift 或其他資料庫引擎。

您的組織可以使用 AWS 資料整合和分析服務的力量,以及 Aurora Postgre SQL相容之可擴展性、效能和相容性。透過這些使用案例,您可以建置強大的資料管道、執行複雜的資料轉換,並與其他 整合, AWS 服務 以進行進階分析和報告。

若要將 Aurora Postgre SQL相容與 整合 AWS Glue,請使用下列高階步驟:

  1. 登入 AWS Management Console,導覽至 AWS Glue 主控台,然後建立 AWS Glue Data Catalog。

    Data Catalog 是中央儲存庫,可存放資料來源的中繼資料,包括 Aurora Postgre SQL相容資料庫和資料表。

  2. 建立 AWS Glue 連線。

    導覽至連線頁面,並建立 AWS Glue 連線。選取 Aurora Postgre SQL相容做為連線類型,並提供 Aurora Postgre SQL相容叢集端點、資料庫名稱,以及資料庫使用者名稱和密碼。

  3. 爬取 Aurora Postgre SQL相容資料來源。

    導覽至爬蟲程式區段,並建立設定為使用您建立之連線的爬蟲程式。指定您要爬取的資料庫和資料表名稱,並包含在 Data Catalog 中,然後執行爬蟲程式。

  4. 建立和執行 AWS Glue ETL任務。

    導覽至任務區段,並使用 Data Catalog 建立ETL任務,以從 Aurora Postgre SQL相容資料庫存取和查詢資料。根據您的需求選擇任務類型。在ETL任務指令碼中,執行任何必要的轉換或處理,並指定已處理資料的目標位置。目標位置可以是 Amazon S3、Amazon Redshift 或其他 Aurora Postgre SQL相容資料庫。

如需詳細說明,請參閱 AWS Glue 文件