先决条件
-
你想读取的谷歌分析 4 对象。请参阅下方支持的实体表,查看可用的实体。
支持的实体
实体 | 可以过滤 | 支持上限 | 支持排序依据 | 支持选择* | 支持分区 |
---|---|---|---|---|---|
实时报告 | 是 | 是 | 是 | 是 | 否 |
核心报告 | 是 | 是 | 是 | 是 | 是 |
示例
googleAnalytics4_read = glueContext.create_dynamic_frame.from_options(
connection_type="GoogleAnalytics4",
connection_options={
"connectionName": "connectionName",
"ENTITY_NAME": "entityName",
"API_VERSION": "v1beta"
}
谷歌分析 4 实体和字段详情
实体 | 字段 | 数据类型 | 支持的运算符 |
---|---|---|---|
核心报告 | 动态字段 | ||
核心报告 | 维度字段 | String | LIKE, = |
核心报告 | 维度字段 | Date | LIKE, = |
核心报告 | 指标字段 | String | >, <, >=, <=, = BETWEEN |
核心报告 | 自定义维度和自定义指标字段 | String | NA |
实时报告 | appVersion | String | LIKE, = |
实时报告 | audienceId | String | LIKE, = |
实时报告 | audienceName | String | LIKE, = |
实时报告 | city | String | LIKE, = |
实时报告 | cityId | String | LIKE, = |
实时报告 | country | String | LIKE, = |
实时报告 | countryId | String | LIKE, = |
实时报告 | deviceCategory | String | LIKE, = |
实时报告 | eventName | String | LIKE, = |
实时报告 | minutesAgo | String | LIKE, = |
实时报告 | platform | String | LIKE, = |
实时报告 | streamId | String | LIKE, = |
实时报告 | streamName | String | LIKE, = |
实时报告 | unifiedScreenName | String | LIKE, = |
实时报告 | activeUsers | String | >, <, >=, <=, = BETWEEN |
实时报告 | 转换 | String | >, <, >=, <=, = BETWEEN |
实时报告 | eventCount | String | >, <, >=, <=, = BETWEEN |
实时报告 | screenPageViews | String | >, <, >=, <=, = BETWEEN |
对查询进行分区
-
基于过滤器的分区
如果你想在 Spark 中使用并发性
PARTITION_FIELD
LOWER_BOUND
UPPER_BOUND
,NUM_PARTITIONS
可以提供其他 spark 选项、、。使用这些参数,原始查询将被拆分为NUM_PARTITIONS
多个子查询,这些子查询可以由 spark 任务同时执行。-
PARTITION_FIELD
:用于分区查询的字段的名称。 -
LOWER_BOUND
:所选分区字段的包含下限值。对于日期,我们接受 Spark SQL 查询中使用的 Spark 日期格式。有效值示例:
"2024-02-06"
. -
UPPER_BOUND
:所选分区字段的唯一上限值。 -
NUM_PARTITIONS
: 分区数。
示例
googleAnalytics4_read = glueContext.create_dynamic_frame.from_options( connection_type="GoogleAnalytics4", connection_options={ "connectionName": "connectionName", "ENTITY_NAME": "entityName", "API_VERSION": "v1beta", "PARTITION_FIELD": "date" "LOWER_BOUND": "2022-01-01" "UPPER_BOUND": "2024-01-02" "NUM_PARTITIONS": "10" }
-
-
基于记录的分区
如果你想在 Spark 中使用并发性,
NUM_PARTITIONS
可以提供其他 spark 选项。使用这些参数,原始查询将被拆分为NUM_PARTITIONS
多个子查询,这些子查询可以由 spark 任务同时执行。-
NUM_PARTITIONS
: 分区数。
示例
googleAnalytics4_read = glueContext.create_dynamic_frame.from_options( connection_type="GoogleAnalytics4", connection_options={ "connectionName": "connectionName", "ENTITY_NAME": "entityName", "API_VERSION": "v1beta", "NUM_PARTITIONS": "10" }
-