本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。
创建和使用 AWS Glue DataBrew 个人资料职位
分析任务对数据集进行一系列评估,并将结果输出到 Amazon S3。数据分析收集的信息可帮助您了解您的数据集,并决定在配方作业中可能要运行哪种数据准备步骤。
运行配置文件作业的最简单方法是使用默认 DataBrew 设置。您可以在运行配置文件作业之前对其进行配置,使其仅返回您想要的信息。
使用以下步骤创建 DataBrew 分析作业。
创建个人资料职位
登录 AWS Management Console 并打开 DataBrew 控制台,网址为 https://console.aws.amazon.com/databrew/
。 从导航窗格中选择 J OBS,选择 “分析作业” 选项卡,然后选择 “创建作业”。
-
输入职位名称,然后选择 “创建个人资料职位”。
对于 Job 输入,请提供要分析的数据集的名称。
(可选)在数据配置文件配置窗格上配置以下内容:
-
数据集级别配置-为数据集中的所有列配置个人资料作业的详细信息。
或者,您可以开启检测和计算数据集中重复行的功能。您也可以选择 “启用相关性矩阵”,然后选择列,以查看多列中值的相关程度。有关可在数据集级别配置的统计数据的详细信息,请参阅数据集级别的可配置统计数据。您可以在 DataBrew 控制台上配置统计信息,也可以使用 DataBrew API 或 AWS 软件开发工具包配置统计信息。
-
列级别配置-使用默认配置文件配置设置,您可以选择要包含在配置文件作业中的列。使用添加配置覆盖来选择要限制收集的统计信息数量的列,或者覆盖某些统计信息的默认配置。有关可以在列级别配置的统计信息的详细信息,请参阅列级别的可配置统计数据。您可以在 DataBrew 控制台上配置统计信息,也可以使用 DataBrew API 或 AWS 软件开发工具包配置统计信息。
请确保您指定的任何配置覆盖都适用于您在配置文件作业中包含的列。如果您为某列配置的不同覆盖之间存在冲突,则最后一个冲突的覆盖具有优先级。
-
(可选)您可以创建数据质量规则并应用与此数据集关联的其他规则集,也可以删除已应用的规则集。有关数据质量验证的更多信息,请参阅验证中的数据质量 AWS Glue DataBrew。
-
在高级作业设置窗格上,您可以为作业的运行方式选择更多选项:
-
最大单位数-使用并行运行的多个计算节点 DataBrew 处理作业。默认节点数为 5。最大节点数为 149。
-
Job timeout — 如果作业运行时间超过您在此处设置的分钟数,则该作业会失败并显示超时错误。默认值为 2,880 分钟或 48 小时。
-
重试次数-如果作业在运行时失败, DataBrew 可以尝试再次运行。默认情况下,不会重试该作业。
-
为作业启用 Amazon CloudWatch 日志- DataBrew 允许将诊断信息发布到 CloudWatch 日志。这些日志可用于故障排除或获取有关如何处理任务的更多详细信息。
-
-
对于 A ssociated S DataBrew chedule,您可以应用作业计划,以便您的作业在特定时间运行,或者定期运行。有关更多信息,请参阅 按计划自动运行作业。
-
当设置符合您的需要时,选择创建作业。或者,如果您想立即运行作业,请选择创建并运行作业。