使用 AWS DataOps 开发套件构建数据管道，以提取、转换和分析 Google Analytics（分析）数据

Amazon Web Services 的 Anton Kukushkin 和 Rudy Puig

摘要

此模式描述了如何使用 AWS DataOps 开发套件 (AWS DDK) 等构建数据管道来提取、转换和分析 Google Analytics 数据。 AWS 服务 AWS DDK 是一个开源开发框架，可帮助您在上 AWS面构建数据工作流程和现代数据架构。 AWS DDK 的主要目标之一是为您节省通常用于劳动密集型数据管道任务的时间和精力，例如协调管道、构建基础设施和创建基础架构。 DevOps 您可以将这些劳动密集型任务卸载到 AWS DDK，这样您就可以专注于编写代码和其他高价值的活动。

先决条件和限制

先决条件

活跃的 AWS 账户
已配置用于谷歌分析的 Amazon AppFlow 连接器
Python 和 pip（Python 的包管理器）
Git，已安装和配置
AWS Command Line Interface (AWS CLI)，已安装并配置
AWS Cloud Development Kit (AWS CDK)，已安装

产品版本

Python 3.7 或更高版本
pip 9.0.3 或更高版本

架构

技术堆栈

Amazon AppFlow
Amazon Athena
Amazon CloudWatch
Amazon EventBridge
Amazon Simple Storage Service（Amazon S3）
Amazon Simple Queue Service(Amazon SQS)
AWS DataOps 开发套件 (AWS DDK)
AWS Lambda

目标架构

下图显示了摄取、转换和分析 Google Analytics 数据的事件驱动流程。

图表显示了以下工作流：

亚马逊 CloudWatch 计划的事件规则会调用亚马逊。 AppFlow
亚马逊将谷 AppFlow 歌分析数据提取到 S3 存储桶中。
在 S3 存储桶提取数据后，将生成中的 EventBridge 事件通知，由 CloudWatch 事件规则捕获，然后将其放入 Amazon SQS 队列中。
Lambda 函数使用来自 Amazon SQS 队列的事件，读取相应的 S3 对象，将对象转换为 Apache Parquet 格式，将转换后的对象写入 S3 存储桶，然后创建或更新表定义。 AWS Glue Data Catalog
Athena 查询针对此表运行。

工具

AWS 工具

Amazon AppFlow 是一项完全托管的集成服务，使您能够在软件即服务 (SaaS) 应用程序之间安全地交换数据。
Amazon Athena 是一种交互式查询服务，可帮助您使用标准 SQL 直接在 Amazon S3 中分析数据。
Amazon CloudWatch 可帮助您实时监控您的 AWS 资源和运行的应用程序 AWS 的指标。
Amazon EventBridge 是一项无服务器事件总线服务，可帮助您将应用程序与来自各种来源的实时数据连接起来。例如， AWS Lambda 函数、使用 API 目的地的 HTTP 调用端点或其他 AWS 账户目的地的事件总线。
Amazon Simple Storage Service (Amazon S3) 是一项基于云的对象存储服务，可帮助您存储、保护和检索任意数量的数据。
Amazon Simple Queue Service (Amazon SQS) 提供了一个安全、持久且可用的托管队列，它可帮助您集成和分离分布式软件系统与组件。
AWS Lambda 是一项计算服务，可帮助您运行代码，无需预置或管理服务器。它仅在需要时运行您的代码，并且能自动扩缩，因此您只需为使用的计算时间付费。
AWS Cloud Development Kit (AWS CDK)是一个框架，用于在代码中定义云基础架构并通过它进行配置 AWS CloudFormation。
AWS DataOps 开发套件 (AWS DDK) 是一个开源开发框架，可帮助您在上 AWS面构建数据工作流程和现代数据架构。

代码

此模式的代码可在 GitHub AWS DataOps 开发套件 (AWS DDK) 和使用亚马逊 AppFlow、Amazon Athena AWS DataOps 和开发套件存储库分析谷歌分析数据中找到。

操作说明

Task 描述所需技能

Task	描述	所需技能
克隆源代码。	要克隆源代码，请运行以下命令： `git clone https://github.com/aws-samples/aws-ddk-examples.git`	DevOps 工程师
创建虚拟环境。	导航到源代码目录，然后运行以下命令创建虚拟环境： `cd google-analytics-data-using-appflow/python && python3 -m venv .venv`	DevOps 工程师
安装依赖项。	要激活虚拟环境并安装依赖项，请运行以下命令： `source .venv/bin/activate && pip install -r requirements.txt`	DevOps 工程师

克隆源代码。

要克隆源代码，请运行以下命令：


git clone https://github.com/aws-samples/aws-ddk-examples.git

DevOps 工程师

创建虚拟环境。

导航到源代码目录，然后运行以下命令创建虚拟环境：


cd google-analytics-data-using-appflow/python && python3 -m venv .venv

DevOps 工程师

安装依赖项。

要激活虚拟环境并安装依赖项，请运行以下命令：


source .venv/bin/activate && pip install -r requirements.txt

DevOps 工程师

Task	描述	所需技能
引导环境。	确认 AWS CLI 已使用您的有效凭据进行设置 AWS 账户。有关更多信息，请参阅文档中的使用命名配置 AWS CLI 文件。运行 `cdk bootstrap --profile [AWS_PROFILE]` 命令。	DevOps 工程师
部署数据。	要部署数据管线，请运行 `cdk deploy --profile [AWS_PROFILE]` 命令。	DevOps 工程师

Task	描述	所需技能
验证堆栈状态。	打开 AWS CloudFormation 管理控制台。在堆栈页面，确认堆栈 `DdkAppflowAthenaStack` 的状态为 `CREATE_COMPLETE`。	DevOps 工程师

故障排除

事务解决方案

事务	解决方案
如果在创建 `AWS::AppFlow::Flow` 资源期间部署失败，您会收到以下错误：`Connector Profile with name ga-connection does not exist`	确认您已为 Google Analytics（分析）创建了亚马逊 AppFlow 连接器并将其命名`ga-connection`。有关说明，请参阅 Amazon AppFlow 文档中的 Google 分析。

如果在创建 AWS::AppFlow::Flow 资源期间部署失败，您会收到以下错误：Connector Profile with name ga-connection does not exist

确认您已为 Google Analytics（分析）创建了亚马逊 AppFlow 连接器并将其命名ga-connection。

有关说明，请参阅 Amazon AppFlow 文档中的 Google 分析。

其他信息

AWS DDK 数据管道由一个或多个阶段组成。在以下代码示例中，您使用 AppFlowIngestionStage 从 Google Analytics 摄取数据，使用 SqsToLambdaStage 处理数据转换，使用 AthenaSQLStage 运行 Athena 查询。

首先，创建数据转换和摄取阶段，如以下代码示例所示：


        appflow_stage = AppFlowIngestionStage(
            self,
            id="appflow-stage",
            flow_name=flow.flow_name,
        )
        sqs_lambda_stage = SqsToLambdaStage(
            self,
            id="lambda-stage",
            lambda_function_props={
                "code": Code.from_asset("./ddk_app/lambda_handlers"),
                "handler": "handler.lambda_handler",
                "layers": [
                    LayerVersion.from_layer_version_arn(
                        self,
                        id="layer",
                        layer_version_arn=f"arn:aws:lambda:{self.region}:336392948345:layer:AWSDataWrangler-Python39:1",
                    )
                ],
                "runtime": Runtime.PYTHON_3_9,
            },
        )
        # Grant lambda function S3 read & write permissions
        bucket.grant_read_write(sqs_lambda_stage.function)
        # Grant Glue database & table permissions
        sqs_lambda_stage.function.add_to_role_policy(
            self._get_glue_db_iam_policy(database_name=database.database_name)
        )
        athena_stage = AthenaSQLStage(
            self,
            id="athena-sql",
            query_string=[
                (
                    "SELECT year, month, day, device, count(user_count) as cnt "
                    f"FROM {database.database_name}.ga_sample "
                    "GROUP BY year, month, day, device "
                    "ORDER BY cnt DESC "
                    "LIMIT 10; "
                )
            ],
            output_location=Location(
                bucket_name=bucket.bucket_name, object_key="query-results/"
            ),
            additional_role_policy_statements=[
                self._get_glue_db_iam_policy(database_name=database.database_name)
            ],
        )

接下来，使用该DataPipeline构造通过使用 EventBridge 规则将各个阶段 “连接” 在一起，如以下代码示例所示：


        (
            DataPipeline(self, id="ingestion-pipeline")
            .add_stage(
                stage=appflow_stage,
                override_rule=Rule(
                    self,
                    "schedule-rule",
                    schedule=Schedule.rate(Duration.hours(1)),
                    targets=appflow_stage.targets,
                ),
            )
            .add_stage(
                stage=sqs_lambda_stage,
                # By default, AppFlowIngestionStage stage emits an event after the flow run finishes successfully
                # Override rule below changes that behavior to call the the stage when data lands in the bucket instead
                override_rule=Rule(
                    self,
                    "s3-object-created-rule",
                    event_pattern=EventPattern(
                        source=["aws.s3"],
                        detail={
                            "bucket": {"name": [bucket.bucket_name]},
                            "object": {"key": [{"prefix": "ga-data"}]},
                        },
                        detail_type=["Object Created"],
                    ),
                    targets=sqs_lambda_stage.targets,
                ),
            )
            .add_stage(stage=athena_stage)
        )

Javascript 在您的浏览器中被禁用或不可用。

要使用 Amazon Web Services 文档，必须启用 Javascript。请参阅浏览器的帮助页面以了解相关说明。

文档惯例

在 AWS Glue 中自动加密

构建视频处理管道

使用 AWS DataOps 开发套件构建数据管道，以提取、转换和分析 Google Analytics（分析）数据

摘要

先决条件和限制

架构

工具

操作说明

故障排除

相关资源

其他信息