本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。
什么是 AWS Glue DataBrew?
AWS Glue DataBrew 是一种可视化数据准备工具,让用户无需编写任何代码即可清理数据并实现标准化。与定制开发的数据准备相比,使用 DataBrew 可将准备用于分析和机器学习 (ML) 的数据所需的时间缩短多达 80%。您可以从 250 多种现成的转换功能中进行选择,以自动执行数据准备任务,例如筛选异常、将数据转换为标准格式以及更正无效值。
通过使用 DataBrew,业务分析师、数据科学家和数据工程师可以更轻松地进行协作,从原始数据中获取见解。由于 DataBrew 是无服务器的,因此无论您的技术水平如何,您都可以浏览和转换数 TB 的原始数据,而无需创建集群或管理任何基础架构。
借助直观的 DataBrew 界面,您可以交互式地发现、可视化、清理和转换原始数据。 DataBrew 提出明智的建议,帮助您识别可能难以发现且修复耗时的数据质量问题。 DataBrew 准备数据后,您可以利用自己的时间对结果采取行动,并更快地进行迭代。您可以将转换保存为配方中的步骤,以后可以对其进行更新或在其他数据集中重复使用,并持续部署。
下图显示了高级 DataBrew 工作原理。
要使用 DataBrew,您需要创建一个项目并连接到您的数据。在项目工作区中,您可以看到您的数据显示在类似网格的可视界面中。在这里,您可以浏览数据并查看价值分布和图表,以了解其概况。
要准备数据,您可以从 250 多种 point-and-click 转换中进行选择。其中包括删除空值、替换缺失值、修复架构不一致、基于函数创建列等等。您还可以使用转换来应用自然语言处理 (NLP) 技术将句子拆分为短语。即时预览会显示转换前后的部分数据,因此您可以在将配方应用于整个数据集之前对其进行修改。
DataBrew 在数据集上运行配方后,输出内容将存储在 Amazon Simple Storage Service (Amazon Simple S3) 中。将经过清理、准备好的数据集存入 Amazon S3 后,您的其他数据存储或数据管理系统可以将其摄取。