选择您的 Cookie 首选项

我们使用必要 Cookie 和类似工具提供我们的网站和服务。我们使用性能 Cookie 收集匿名统计数据,以便我们可以了解客户如何使用我们的网站并进行改进。必要 Cookie 无法停用,但您可以单击“自定义”或“拒绝”来拒绝性能 Cookie。

如果您同意,AWS 和经批准的第三方还将使用 Cookie 提供有用的网站功能、记住您的首选项并显示相关内容,包括相关广告。要接受或拒绝所有非必要 Cookie,请单击“接受”或“拒绝”。要做出更详细的选择,请单击“自定义”。

ReferentialIntegrity

聚焦模式
ReferentialIntegrity - AWS Glue

检查主数据集中一组列的值在多大程度上是引用数据集中一组列值的子集。

语法

ReferentialIntegrity <PRIMARY_COLS> <REFERENCE_DATASET_COLS> <EXPRESSION>
  • PRIMARY_COLS – 主数据集中列名的逗号分隔列表。

    支持的列类型:字节、十进制、双精度、浮点数、整数、长整数、短整数

  • REFERENCE_DATASET_COLS – 此参数包含用句点分隔的两个部分。第一部分是引用数据集的别名。第二部分是用大括号括起的引用数据集中以逗号分隔的列名列表。

    支持的列类型:字节、十进制、双精度、浮点数、整数、长整数、短整数

  • EXPRESSION — 针对规则类型响应运行以生成布尔值的表达式。有关更多信息,请参阅 Expressions

示例:检查邮政编码列 的引用完整性

以下示例规则检查主数据集 zipcode 列中是否有 90% 以上的值存在于 reference 数据集的 zipcode 列中。

ReferentialIntegrity "zipcode" "reference.zipcode" >= 0.9

示例:检查城市和州列的引用完整性

在以下示例中,包含城市和州信息的列存在于主数据集和引用数据集中。两个数据集中的列名不同。该规则检查主数据集中各列的值集是否与引用数据集中各列的值集完全相等。

ReferentialIntegrity "city,state" "reference.{ref_city,ref_state}" = 1.0

示例动态规则

  • ReferentialIntegrity "city,state" "reference.{ref_city,ref_state}" > avg(last(10))

  • ReferentialIntegrity "city,state" "reference.{ref_city,ref_state}" between min(last(10)) - 1 and max(last(10)) + 1

下一主题:

RowCount

上一主题:

平均值
隐私网站条款Cookie 首选项
© 2025, Amazon Web Services, Inc. 或其附属公司。保留所有权利。