本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。
创建数据流
使用 Canva SageMaker s 中的 Data Wrangler 流程或数据流来创建和修改数据准备管道。对于大于 5 GB 的数据集,我们建议您使用 Data Wrangler。
首先,请使用以下步骤将数据导入数据流。
-
打开 SageMaker 画布。
-
在左侧导航栏中,选择 D ata Wr angler。
-
选择 “导入并准备”。
-
从下拉菜单中选择 “表格” 或 “图像”。
-
在 “选择数据源” 中,选择您的数据源并选择要导入的数据。您最多可以选择 30 个文件或一个文件夹。如果您已将数据集导入到 Canvas 中,请选择 Canvas 数据集作为来源。否则,请连接到 Amazon S3 或 Snowflake 等数据源并浏览您的数据。有关连接到数据源或导入数据的信息,请参阅以下页面:
-
选择要导入的数据后,选择下一步。
-
(可选)对于导入表格数据集时的导入设置部分,展开高级下拉菜单。您可以为数据流导入指定以下高级设置:
采样方法-选择要使用的采样方法和样本量。有关如何更改样本的更多信息,请参阅部分编辑数据流采样配置。
文件编码 (CSV)-选择数据集文件的编码。
UTF-8
是默认值。跳过第一行-如果数据集的开头有冗余行,请输入要跳过导入的行数。
分隔符-选择用于分隔数据中每项的分隔符。您也可以指定自定义分隔符。
多行检测-如果您希望 Canvas 手动解析多行单元格的整个数据集,请选择此选项。Canvas 通过采集数据样本来确定是否使用多行支持,但是 Canvas 可能无法在样本中检测到任何多行单元格。在这种情况下,我们建议您选择多行检测选项,以强制 Canvas 检查整个数据集中的多行单元格。
-
选择 Import(导入)。
现在,您应该有了新的数据流,并且可以开始添加转换步骤和分析了。