查找并填充数据集中的缺失值
您可以在数据集中使用 FillMissingValues 转换,查找数据集中缺少值的记录,并添加包含由输入决定的值的新字段。输入数据集用于训练机器学习(ML)模型,该模型确定缺失值。如果您使用增量数据集,则每个增量集都会用作 ML 模型的训练数据,因此结果可能不是如此准确。
在任务图中使用 FillMissingValues 转换节点
-
(可选)打开资源面板,然后选择 FillMissingValues 将新转换添加到作业图(如果需要)。
-
在 Node properties (节点属性) 选项卡上,输入任务图中节点的名称。如果尚未选择父节点,请从 Node parents (父节点) 列表中选择一个节点,用作转换的输入源。
-
选择 Transform (转换) 选项卡。
-
对于 Data field (数据字段),从要分析缺失值的源数据中选择列或字段名称。
-
(可选)在 New field name (新字段名称) 字段中,输入每条记录所添加字段的名称,该字段将保存所分析字段的估计替换值。如果分析的字段没有缺失值,则分析字段中的值将复制到新字段。
如果没有为新字段指定名称,默认名称是已分析列的名称,已附加
_filled
。例如,如果您为 Data field (数据字段) 输入Age
,没有为 New field name (新字段名称) 指定值,则名为Age_filled
的新字段会添加到每个记录。 (可选)配置转换节点属性后,您可以选择节点详细信息面板中的 Output schema (输出架构) 选项卡,查看数据的修改架构。当您首次为任务中的任何节点选择此选项卡时,系统会提示您提供 IAM 角色以访问数据。如果您尚未在 Job details (任务详细信息) 选项卡上指定 IAM 角色,系统会提示您在此处输入 IAM 角色。
(可选)配置节点属性和转换属性后,您可以选择节点详细信息窗格中的 Data preview (数据预览) 选项卡来预览已修改的数据集。当您首次为任务中的任何节点选择此选项卡时,系统会提示您提供 IAM 角色以访问数据。使用此功能会产生相关费用,并且一旦您提供 IAM 角色,则会立即开始计费。