本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。
Aurora Postgre 相容與 SQL的整合 AWS Glue
AWS Glue 是一種全受管擷取、轉換和載入 (ETL) 服務,用於準備和載入資料以供分析。您可以將任何資料處理和分析工作流程 AWS Glue 與 Amazon Aurora Postgre SQL相容版本整合。
AWS Glue 使用案例和高階步驟
與 整合的 Aurora Postgre SQL相容 AWS Glue 支援下列使用案例:
-
資料倉儲和分析 ‒ 使用 AWS Glue 與 Aurora Postgre SQL相容 的整合來建置資料倉儲和分析解決方案。 AWS Glue 可以從 Aurora Postgre SQL相容資料庫擷取資料,並根據您的需求進行轉換。然後, AWS Glue 可以將轉換的資料載入資料倉儲,例如 Amazon Redshift 或 Amazon Athena,以進行進階分析和報告。
-
資料湖建立 ‒ 用來從 Aurora Postgre SQL相容 AWS Glue 擷取資料,並將其載入存放在 Amazon S3 中的資料湖。然後,您可以將此資料湖用於各種目的,例如機器學習、資料探索或饋送其他分析系統。
-
ETL 管道 ‒ 使用無 AWS Glue 伺服器ETL服務來建置強大的資料管道。您可以從 Aurora Postgre SQL相容擷取資料,並使用 Apache Spark 或 執行複雜的轉換 PySpark。您可以將已處理的資料載入 Amazon S3 或 Amazon Redshift 等目標,也可以將其載入回 Aurora Postgre SQL相容。
-
資料目錄和中繼資料管理 ‒ AWS Glue Data Catalog 用於從 Aurora Postgre SQL相容資料庫和資料表中自動編目和目錄中繼資料。 AWS 服務 例如 Amazon Athena 和 Amazon Redshift Spectrum,可以使用此集中式中繼資料儲存庫來查詢和分析資料。
-
機器學習的資料準備 – AWS Glue 用於從與機器學習 (ML) 工作負載SQL相容的 Aurora Postgre 準備資料。處理的資料可以載入 Amazon SageMaker AI 或其他 ML 服務,以訓練和部署模型。
-
資料遷移和複寫 ‒ 雖然 AWS Database Migration Service (AWS DMS) 是資料庫遷移的主要服務,但您也可以使用 AWS Glue。將資料從 Aurora Postgre SQL相容遷移或複寫至其他資料存放區,例如 Amazon S3、Amazon Redshift 或其他資料庫引擎。
您的組織可以使用 AWS 資料整合和分析服務的力量,以及 Aurora Postgre SQL相容之可擴展性、效能和相容性。透過這些使用案例,您可以建置強大的資料管道、執行複雜的資料轉換,並與其他 整合, AWS 服務 以進行進階分析和報告。
若要將 Aurora Postgre SQL相容與 整合 AWS Glue,請使用下列高階步驟:
-
登入 AWS Management Console,導覽至 AWS Glue 主控台,然後建立 AWS Glue Data Catalog。
Data Catalog 是中央儲存庫,可存放資料來源的中繼資料,包括 Aurora Postgre SQL相容資料庫和資料表。
-
建立 AWS Glue 連線。
導覽至連線頁面,並建立 AWS Glue 連線。選取 Aurora Postgre SQL相容做為連線類型,並提供 Aurora Postgre SQL相容叢集端點、資料庫名稱,以及資料庫使用者名稱和密碼。
-
爬取 Aurora Postgre SQL相容資料來源。
導覽至爬蟲程式區段,並建立設定為使用您建立之連線的爬蟲程式。指定您要爬取的資料庫和資料表名稱,並包含在 Data Catalog 中,然後執行爬蟲程式。
-
建立和執行 AWS Glue ETL任務。
導覽至任務區段,並使用 Data Catalog 建立ETL任務,以從 Aurora Postgre SQL相容資料庫存取和查詢資料。根據您的需求選擇任務類型。在ETL任務指令碼中,執行任何必要的轉換或處理,並指定已處理資料的目標位置。目標位置可以是 Amazon S3、Amazon Redshift 或其他 Aurora Postgre SQL相容資料庫。
如需詳細說明,請參閱 AWS Glue 文件。