使用 SplitFields 将一个数据集拆分为两个 - AWS Glue

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

使用 SplitFields 将一个数据集拆分为两个

SplitFields 转换允许您选择输入数据集中的某些数据属性键,并将其放入一个数据集,将未选定的键放入单独的数据集。此转换的输出是 DynamicFrames 集合。

注意

您必须使用 SelectFromCollection 转换将 DynamicFrames 集合转换为单个 DynamicFrame,然后将输出发送到目标位置。

SplitFields 转换区分大小写。如果您需要不区分大小写的属性键名称,则将 ApplyMapping 转换添加为父节点。

将 SplitFields 转换节点添加到任务图
  1. (可选)打开资源面板,然后选择 SplitFields 将新转换添加到作业图(如果需要)。

  2. Node properties (节点属性) 选项卡上,输入任务图中节点的名称。如果尚未选择父节点,请从 Node parents (父节点) 列表中选择一个节点,用作转换的输入源。

  3. 选择 Transform (转换) 选项卡。

  4. 选择要放入第一个数据集的属性键。未选择的键将置于第二个数据集。

  5. (可选)配置转换节点属性后,您可以选择节点详细信息面板中的 Output schema (输出架构) 选项卡,查看数据的修改架构。当您首次为任务中的任何节点选择此选项卡时,系统会提示您提供 IAM 角色以访问数据。如果您尚未在 Job details (任务详细信息) 选项卡上指定 IAM 角色,系统会提示您在此处输入 IAM 角色。

  6. (可选)配置节点属性和转换属性后,您可以选择节点详细信息窗格中的 Data preview (数据预览) 选项卡来预览已修改的数据集。当您首次为任务中的任何节点选择此选项卡时,系统会提示您提供 IAM 角色以访问数据。使用此功能会产生相关费用,并且一旦您提供 IAM 角色,则会立即开始计费。

  7. 配置 SelectFromCollection 转换节点,处理生成的数据集。