使用查找转换从目录表中添加匹配数据 - AWS Glue

使用查找转换从目录表中添加匹配数据

当键与数据中定义的查找列匹配时,查找转换允许您从定义的目录表中添加列。这等效于使用作为条件匹配列在数据和查找表之间进行左外联接。

要添加查找转换,请执行以下操作:
  1. 打开资源面板,然后选择查找将新转换添加到作业图。添加节点时选择的节点将是其父节点。

  2. (可选)在节点属性选项卡上,输入任务图中节点的名称。如果尚未选择父节点,请从 Node parents (父节点) 列表中选择一个节点,用作转换的输入源。

  3. 转换选项卡上,输入用于执行查找的完全限定的目录表名称。例如,如果您的数据库是“mydb”,您的表是“mytable”,那么输入“mydb.mytable”。然后输入在查找表中查找匹配项的条件(如果查询键为符合式)。输入以逗号分隔的键列列表。如果一个或多个键列的名称不同,则需要定义匹配映射。

    例如,如果数据列是“user_id”和“region”,并且在用户表中,相应的列名为“id”和“region”,则在要匹配的列字段中输入:”user_id=id, region“。您可以执行 region=region,但不需要,因为它们是一样的。

  4. 最后,输入要从查找表中匹配的行中提取的列,以将其合并到数据中。如果未找到匹配项,则这些列将设置为 NULL。

    注意

    查找转换之下,为了提高效率,它使用左联接。如果查找表具有复合键,请确保将要匹配的列设置为匹配所有键列,这样只能出现一个匹配项。否则,将匹配多个查找行,这将导致为每个匹配项添加额外的行。

    屏幕截图显示了“查找”转换的“转换”选项卡。