选择您的 Cookie 首选项

我们使用必要 Cookie 和类似工具提供我们的网站和服务。我们使用性能 Cookie 收集匿名统计数据,以便我们可以了解客户如何使用我们的网站并进行改进。必要 Cookie 无法停用,但您可以单击“自定义”或“拒绝”来拒绝性能 Cookie。

如果您同意,AWS 和经批准的第三方还将使用 Cookie 提供有用的网站功能、记住您的首选项并显示相关内容,包括相关广告。要接受或拒绝所有非必要 Cookie,请单击“接受”或“拒绝”。要做出更详细的选择,请单击“自定义”。

编辑数据流采样配置

聚焦模式
编辑数据流采样配置 - 亚马逊 SageMaker AI

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

当将表格数据导入 Data Wrangler 数据流时,您可以选择对数据集进行采样,以加快数据探索和清理过程。在数据集样本上运行探索性转换通常比在整个数据集上运行转换更快,当您准备好导出数据集和构建模型时,就可以将转换应用于整个数据集。

Canvas 支持以下采样方法:

  • FirstK:Canvas 从数据集中选择前 K 个项目,其中 K 是您指定的数字。这种采样方法很简单,但是如果数据集不是随机排序,就会产生偏差。

  • 随机:Canvas 从数据集中随机选择项目,每个项目被选中的概率相等。这种采样方法有助于确保样本对整个数据集具有代表性。

  • 分层:根据一个或多个属性(例如年龄和收入水平)将数据集划分为多个组(或分层)。然后,从每组中随机选择一定数量的项目。此方法可确保所有相关子组在样本中得到充分代表。

您可以随时编辑采样配置,更改用于数据分析的样本大小。

要更改采样配置,请执行以下操作:

  1. 在数据流图中,选择数据来源节点。

  2. 在底部导航栏选择采样

  3. 此时将打开采样对话框。在采样方法下拉列表中,选择所需的采样方法。

  4. 最大样本大小中,输入要采样的行数。

  5. 单击更新以保存您的更改。

现在应该可以应用对采样配置的更改了。

隐私网站条款Cookie 首选项
© 2025, Amazon Web Services, Inc. 或其附属公司。保留所有权利。