查找并填充数据集中的缺失值 - AWS Glue

查找并填充数据集中的缺失值

您可以在数据集中使用 FillMissingValues 转换,查找数据集中缺少值的记录,并添加包含由输入决定的值的新字段。输入数据集用于训练机器学习(ML)模型,该模型确定缺失值。如果您使用增量数据集,则每个增量集都会用作 ML 模型的训练数据,因此结果可能不是如此准确。

在任务图中使用 FillMissingValues 转换节点
  1. (可选)打开资源面板,然后选择 FillMissingValues 将新转换添加到作业图(如果需要)。

  2. Node properties (节点属性) 选项卡上,输入任务图中节点的名称。如果尚未选择父节点,请从 Node parents (父节点) 列表中选择一个节点,用作转换的输入源。

  3. 选择 Transform (转换) 选项卡。

  4. 对于 Data field (数据字段),从要分析缺失值的源数据中选择列或字段名称。

  5. (可选)在 New field name (新字段名称) 字段中,输入每条记录所添加字段的名称,该字段将保存所分析字段的估计替换值。如果分析的字段没有缺失值,则分析字段中的值将复制到新字段。

    如果没有为新字段指定名称,默认名称是已分析列的名称,已附加 _filled。例如,如果您为 Data field (数据字段) 输入 Age,没有为 New field name (新字段名称) 指定值,则名为 Age_filled 的新字段会添加到每个记录。

  6. (可选)配置转换节点属性后,您可以选择节点详细信息面板中的 Output schema (输出架构) 选项卡,查看数据的修改架构。当您首次为任务中的任何节点选择此选项卡时,系统会提示您提供 IAM 角色以访问数据。如果您尚未在 Job details (任务详细信息) 选项卡上指定 IAM 角色,系统会提示您在此处输入 IAM 角色。

  7. (可选)配置节点属性和转换属性后,您可以选择节点详细信息窗格中的 Data preview (数据预览) 选项卡来预览已修改的数据集。当您首次为任务中的任何节点选择此选项卡时,系统会提示您提供 IAM 角色以访问数据。使用此功能会产生相关费用,并且一旦您提供 IAM 角色,则会立即开始计费。