提取 JSON 路径 - AWS Glue

提取 JSON 路径

此转换提取从 JSON 字符串列中提取新列。当您只需要几个数据元素并且不想将整个 JSON 内容导入表架构时,此转换非常有用。

将提取 JSON 路径转换节点添加到作业图
  1. 打开资源面板,然后选择提取 JSON 路径将新转换添加到作业图。添加节点时选择的节点将是其父节点。

  2. 在节点属性面板上,输入作业图中节点的名称。如果尚未选择父节点,请从 Node parents (父节点) 列表中选择一个节点,用作转换的输入源。

  3. 转换选项卡上,选择包含 JSON 字符串的列。输入以逗号分隔的多个 JSON 路径表达式,每个表达式都引用如何从 JSON 数组或对象中提取值。例如,如果 JSON 列包含一个属性为“prop_1”和“prop2”的对象,则可以提取两个对象,指定它们的名称“prop_1,prop_2”。

    如果 JSON 字段包含特殊字符,例如,要从此 JSON {"a. a": 1} 中提取属性,则可以使用路径 $['a. a']。唯一的例外是逗号,因为它是为分隔路径而保留的。然后为每个路径输入相应的列名,用逗号分隔。

  4. (可选)在转换选项卡上,您可以勾选提取后删除 JSON 列,当提取所需部分后不需要其余的 JSON 数据时,这是有意义的。