创建数据流 - Amazon SageMaker

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

创建数据流

使用 Canva SageMaker s 中的 Data Wrangler 流程或数据流来创建和修改数据准备管道。对于大于 5 GB 的数据集,我们建议您使用 Data Wrangler。

首先,请使用以下步骤将数据导入数据流。

  1. 打开 SageMaker 画布。

  2. 在左侧导航栏中,选择 D ata Wr angler。

  3. 选择 “导入并准备”。

  4. 从下拉菜单中选择 “表格” 或 “图像”。

  5. 在 “选择数据源” 中,选择您的数据源并选择要导入的数据。您最多可以选择 30 个文件或一个文件夹。如果您已将数据集导入到 Canvas 中,请选择 Canvas 数据集作为来源。否则,请连接到 Amazon S3 或 Snowflake 等数据源并浏览您的数据。有关连接到数据源或导入数据的信息,请参阅以下页面:

  6. 选择要导入的数据后,选择下一步

  7. (可选)对于导入表格数据集时的导入设置部分,展开高级下拉菜单。您可以为数据流导入指定以下高级设置:

    • 采样方法-选择要使用的采样方法和样本量。有关如何更改样本的更多信息,请参阅部分编辑数据流采样配置

    • 文件编码 (CSV)-选择数据集文件的编码。 UTF-8是默认值。

    • 跳过第一行-如果数据集的开头有冗余行,请输入要跳过导入的行数。

    • 分隔符-选择用于分隔数据中每项的分隔符。您也可以指定自定义分隔符。

    • 多行检测-如果您希望 Canvas 手动解析多行单元格的整个数据集,请选择此选项。Canvas 通过采集数据样本来确定是否使用多行支持,但是 Canvas 可能无法在样本中检测到任何多行单元格。在这种情况下,我们建议您选择多行检测选项,以强制 Canvas 检查整个数据集中的多行单元格。

  8. 选择 Import(导入)

现在,您应该有了新的数据流,并且可以开始添加转换步骤和分析了。