本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。
Aurora Postgre SQL-兼容与 AWS Glue
AWS Glue 是一项完全托管的提取、转换和加载 (ETL) 服务,用于准备和加载数据以供分析。您可以 AWS Glue 与 Amazon Aurora Postgre SQL 兼容版集成,用于任何数据处理和分析工作流程。
AWS Glue 用例和高级步骤
Aurora Postgre 的集成 SQL ——兼容 AWS Glue 支持以下用例:
-
数据仓库和分析-使用与 Aurora Postgre SQL 兼容的 AWS Glue 集成来构建数据仓库和分析解决方案。 AWS Glue 可以从SQL兼容 Aurora Postgre 的数据库中提取数据,然后根据您的要求进行转换。然后 AWS Glue 可以将转换后的数据加载到数据仓库中,例如 Amazon Redshift 或 Amazon Athena,以进行高级分析和报告。
-
创建数据湖 — 用于 AWS Glue 从 Aurora Postgre SQL-Compatible 中提取数据并将其加载到存储在 Amazon S3 中的数据湖中。然后,您可以将此数据湖用于各种用途,例如机器学习、数据探索或为其他分析系统提供数据。
-
ETLpipelin@@ es-使用 AWS Glue 无服务器ETL服务构建强大的数据管道。你可以从 Aurora Postgre SQL-Compatible 中提取数据,然后使用 Apache Spark 或执行复杂的转换。 PySpark你可以将处理后的数据加载到目标,例如 Amazon S3 或 Amazon Redshift,也可以将其加载回兼容的 Aurora Post SQL gre 中。
-
数据编目和元数据管理-用于 AWS Glue Data Catalog 自动抓取SQL兼容 Aurora Postgre 的数据库和表中的元数据并对其进行编目。 AWS 服务 例如 Amazon Athena 和 Amazon Redshift Spectrum,可以使用这个集中式元数据存储库来查询和分析数据。
-
机器学习的数据准备——用于准备 AWS Glue 来自 Aurora Postgre 的数据 SQL ——兼容机器学习 (ML) 工作负载。处理后的数据可以加载到 Amazon SageMaker AI 或其他机器学习服务中,用于训练和部署模型。
-
数据迁移和复制 − 虽然 AWS Database Migration Service (AWS DMS) 是数据库迁移的主要服务,但您也可以使用 AWS Glue。将数据从 Aurora Postgre SQL-Compatible 迁移或复制到其他数据存储,例如亚马逊 S3、Amazon Redshift 甚至其他数据库引擎。
您的组织可以将 AWS 数据集成和分析服务的强大功能与 Aurora Postgre SQL 兼容的扩展性、性能和兼容性结合使用。通过这些用例,您可以构建强大的数据管道,执行复杂的数据转换,并与其他用例集成 AWS 服务 以进行高级分析和报告。
要将 Aurora Postgre SQL-Compatib AWS Glue le 与集成,请使用以下高级步骤:
-
登录 AWS Management Console,导航到 AWS Glue 控制台,然后创建 AWS Glue Data Catalog。
数据目录是一个中央存储库,用于存储有关数据源的元数据,包括与 Aurora Postgre SQL 兼容的数据库和表。
-
创建 AWS Glue 连接。
导航到 “连接” 页面,然后创建 AWS Glue 连接。选择 Aurora Postgre SQL-C ompatible 作为连接类型,并提供SQL兼容 Aurora Postgre 的集群终端节点、数据库名称以及您的数据库用户名和密码。
-
抓取SQL兼容 Aurora Postgre 的数据源。
导航至 Crawlers 部分,然后创建配置为使用您创建的连接的 Crawler。指定要搜索并包含在数据目录中的数据库和表名,然后运行爬网程序。
-
创建并运行作 AWS Glue ETL业。
导航到 “作业” 部分,然后创建一个ETL任务,使用数据目录访问和查询 Aurora SQL Postgre 兼容数据库中的数据。根据您的要求选择工作类型。在ETL作业脚本中,执行任何必要的转换或处理,并为已处理的数据指定目标位置。目标位置可以是亚马逊 S3、亚马逊 Redshift 或其他兼容 Aurora Postgre 的数据库。SQL
有关详细说明,请参阅AWS Glue 文档。