创建和使用 Data Wrangler 流 - Amazon SageMaker

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

创建和使用 Data Wrangler 流

使用 Amazon SageMaker Data Wrangler 流程或数据流来创建和修改数据准备管道。数据流将您创建的数据集、转换和分析或步骤连接起来,并且可用于定义您的管道。

实例

当您在 Amazon SageMaker Studio Classic 中创建 Data Wrangler 流程时,Data Wrangler 会使用亚马逊EC2实例在您的流程中运行分析和转换。默认情况下,Data Wrangler 使用 m5.4xlarge 实例。m5 实例是通用实例,可以在计算和内存之间实现平衡。您可以将 m5 实例用于各种计算工作负载。

Data Wrangler 还使您能够选择使用 r5 实例。r5 实例旨在提供快速性能,以便处理内存中的大型数据集。

我们建议您选择针对您的工作负载进行了最佳优化的实例。例如,r5.8xlarge 的价格可能比 m5.4xlarge 高,但 r5.8xlarge 可能针对您的工作负载进行了更好的优化。借助更优化的实例,您可以在更短的时间内,以更低的成本运行数据流。

下表显示了您可以用来运行 Data Wrangler 流的实例。

标准实例 v CPU 内存
ml.m5.4xlarge 16 64 GiB
ml.m5.8xlarge 32 128 GiB
ml.m5.16xlarge 64

256 GiB

ml.m5.24xlarge 96 384 GiB
r5.4xlarge 16 128 GiB
r5.8xlarge 32 256 GiB
r5.24xlarge 96 768 GiB

有关 r5 实例的更多信息,请参阅 Amazon EC2 R5 实例。有关 m5 实例的更多信息,请参阅 Amazon EC2 M5 实例。

每个 Data Wrangler 流程都有一个与之关联的 Amazon EC2 实例。可能有多个流程与单个实例相关联。

对于每个流文件,您可以无缝切换实例类型。如果您切换实例类型,则用于运行该流的实例会继续运行。

要切换流的实例类型,请执行以下操作。

  1. 选择 “运行终端和内核” 图标 ( Black square icon representing a placeholder or empty image. )。

  2. 导航到您正在使用的实例并选择该实例。

  3. 选择要删除的实例。

    显示如何在 Data Wrangler 控制台的数据流页面中选择实例的示例。
  4. 选择保存

对于运行的所有实例,您都需要付费。为避免产生额外费用,请手动关闭您未使用的实例。要关闭正在运行的实例,请按以下步骤操作。

关闭正在运行的实例。

  1. 选择实例图标。下图显示了在何处选择图RUNNINGINSTANCES标。

    Studio Classic 控制台中的RUNNINGINSTANCES选项卡。
  2. 选择要关闭的实例旁边的关闭

如果您关闭了用于运行流的实例,则暂时会无法访问该流。如果您在尝试打开运行之前关闭的实例的流时遇到错误,请等待 5 分钟,然后再次尝试打开。

当您将数据流导出到亚马逊简单存储服务或亚马逊 SageMaker 功能商店等位置时,Data Wrangler 会运行亚马逊 SageMaker 处理任务。可以将以下实例之一用于处理作业。有关导出数据的更多信息,请参阅 导出

标准实例 v CPU 内存
ml.m5.4xlarge 16 64 GiB
ml.m5.12xlarge 48

192 GiB

ml.m5.24xlarge 96 384 GiB

有关使用可用实例类型的每小时费用的更多信息,请参阅SageMaker 定价

数据流 UI

导入数据集时,原始数据集会出现在数据流中,并被命名为来源。如果您在导入数据时启用了采样,则此数据集将被命名为来源 – 采样。Data Wrangler 会自动推断数据集内每个列的类型,并创建一个名为数据类型的新数据框。您可以选择此框架来更新推断的数据类型。上传单个数据集后,您将看到类似于下图中显示的结果:

在 Data Wrangler 控制台中显示 “来源-采样” 和 “数据类型” 的示例。

每次添加转换步骤时,都会创建一个新的数据框。将多个转换步骤(联接串联除外)添加到同一个数据集时,它们会堆叠在一起。

联接串联会创建包含新的联接或串联数据集的独立步骤。

下图显示了两个数据集之间存在联接的数据流,以及两个步骤堆栈。第一个堆栈(步骤 (2))向数据类型数据集内推断的类型添加两个转换。下游堆栈(也就是右边的堆栈)向通过名为 demo-join 的联接生成的数据集添加转换。

示例显示了 Data Wrangler 控制台的数据流页面中的步骤。

数据流右下角的小灰色框提供了流中堆栈和步骤的数量以及流布局的概述。灰色框内的较亮框表示 UI 视图中的步骤。可以使用此框查看数据流中不属于 UI 视图的部分。使用“适合屏幕”图标 ( Dotted square outline icon representing a placeholder or empty state. ) 将所有步骤和数据集填充到 UI 视图中。

左下方的导航栏包含图标,可用于放大 ( Plus symbol icon representing an addition or new item action. ) 和缩小 ( Horizontal line or divider, typically used to separate content sections. ) 数据流,以及调整数据流大小以适应屏幕 ( Dotted square outline icon representing a placeholder or empty state. )。使用锁定图标 ( Trash can icon representing deletion or removal functionality. ) 可以锁定和解锁屏幕上每个步骤的位置。

为您的数据流添加步骤

选择任何数据集或之前添加的步骤旁边的 +,然后选择以下选项之一:

  • 编辑数据类型(仅适用于数据类型步骤):如果您还没有向数据类型步骤添加任何转换,则可以选择编辑数据类型,来更新 Data Wrangler 在导入您的数据集时推断出的数据类型。

  • 添加转换:添加新的转换步骤。要了解有关您可添加的数据转换的更多信息,请参阅 转换数据

  • 添加分析:添加分析。可以使用此选项在数据流中的任何点分析您的数据。向某个步骤添加一个或多个分析时,该步骤上会出现一个分析图标 ( Bar chart icon representing data visualization or analytics functionality. )。要了解有关可添加的分析的更多信息,请参阅 分析和可视化

  • 联接:联接两个数据集并将生成的数据集添加到数据流中。要了解更多信息,请参阅 联接数据集

  • 串联:串联两个数据集并将生成的数据集添加到数据流中。要了解更多信息,请参阅 串联数据集

从数据流中删除一个步骤

要删除某个步骤,请选择该步骤,然后选择删除。如果该节点是具有单个输入的节点,则只能删除您选择的步骤。删除具有单个输入的步骤时,不会删除该步骤后面的步骤。如果您要删除源节点、联接节点或串联节点的步骤,则后面的所有步骤也会被删除。

要从步骤堆栈中删除某个步骤,请选择该堆栈,然后选择要删除的步骤。

可以使用以下过程之一删除一个步骤,而不删除下游步骤。

Delete a step in the Data Wrangler flow

可以删除数据流中具有单个输入的节点的单个步骤。无法删除源节点、联接节点和串联节点的单独步骤。

使用以下过程可以删除 Data Wrangler 流中的步骤。

  1. 选择您要删除的步骤所属的步骤组。

  2. 选择步骤旁边的图标。

  3. 选择删除步骤

    显示如何删除 Data Wrangler 控制台数据流页面中的步骤的示例。
Delete a step in the table view

使用以下过程删除表视图中的步骤。

可以删除数据流中具有单个输入的节点的单个步骤。无法删除源节点、联接节点和串联节点的单独步骤。

  1. 选择步骤,并打开该步骤的表视图。

  2. 将光标移到步骤上方,即可显示省略号图标。

  3. 选择步骤旁边的图标。

  4. 选择删除

    演示如何删除 Data Wrangler 控制台表格视图中的步骤的示例。

编辑 Data Wrangler 流中的步骤

可以编辑在 Data Wrangler 流中添加的每个步骤。通过编辑步骤,您可以更改列的转换或数据类型。可以编辑步骤以进行更改,从而更好地使用步骤进行分析。

您可以使用多种方式编辑步骤。一些示例包括更改插补估计法,或更改将值视为异常值的阈值。

可以使用以下过程编辑步骤。

要编辑步骤,请执行以下操作。

  1. 在 Data Wrangler 流中选择一个步骤,打开表视图。

    Data Wrangler 控制台数据流页面中的示例步骤。
  2. 在数据流中选择一个步骤。

  3. 编辑该步骤。

下图显示了一个步骤编辑示例。

显示如何在 Data Wrangler 控制台的数据流页面中编辑步骤的示例。
注意

您可以使用您的 Amazon SageMaker 域中的共享空间来协作处理数据管理者流程。在共享空间中,您和协作者可以实时编辑流文件。但是,您和协作者都无法实时看到更改。任何人对 Data Wrangler 流进行更改后,都必须立即进行保存。当有人保存文件时,除非关闭文件并重新打开,否则协作者无法看到更改。如果某个人做出任何更改但未保存,都会被其他人保存的更改覆盖。