转换数据 - Amazon Personalize

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

转换数据

要在 Data Wrangler 中转换数据,请在数据流中添加转换步骤。Data Wrangler 包含 300 多种转换,可用于准备数据,包括为 Amazon Personalize 映射列转换。而且,您可以使用常规 Data Wrangler 转换来修复异常值、类型问题和缺失值等问题。

完成数据转换后,您可以使用 Data Wrangler 对其进行分析。或者,如果您在 Data Wrangler 中完成了数据的准备,则可以对其进行处理并将其导入到 Amazon Personalize 中。有关分析数据的信息,请参阅生成可视化和数据见解。有关处理和导入数据的信息,请参阅处理数据并将其导入 Amazon Personalize

为 Amazon Personalize 映射列

要转换数据使其符合 Amazon Personalize 要求,您需添加为 Amazon Personalize 映射列转换,并将列映射到 Amazon Personalize 的必填和可选字段。

使用为 Amazon Personalize 映射列转换
  1. 选择最新转换对应的 +,然后选择添加转换。如果您尚未添加转换,请为数据类型转换选择 +。Data Wrangler 会自动将此转换添加到您的流中。

  2. 选择添加步骤

  3. 选择 Amazon Personalize 的转换。默认情况下,为 Amazon Personalize 映射列转换处于选中状态。

  4. 使用转换字段,将您的数据映射到所需的 Amazon Personalize 属性。

    1. 选择与您的数据相匹配的数据集类型(交互、物品或用户)。

    2. 选择您的域名(ECOMMERCE、VIDEO _ON_ DEMAND 或自定义)。您选择的域必须与您在创建数据集组时指定的域相匹配。

    3. 选择与 Amazon Personalize 必填字段和可选字段相匹配的列。例如,对于 item_ID 列,选择数据中存储每件物品唯一标识信息的列。

      每个列字段都按数据类型进行筛选。您的数据中只有符合 Amazon Personalize 数据类型要求的列才可用。如果您的数据不是所需的类型,则您可以使用将值解析为类型 Data Wrangler 转换,对其进行转换。

常规 Data Wrangler 转换

以下常规 Data Wrangler 转换可以帮助您为 Amazon Personalize 准备数据:

  • 数据类型转换:如果您的字段未作为可能的选项列在为 Amazon Personalize 映射列转换中,则您可能需要转换其数据类型。Data Wrangler 转换将值解析为类型可以帮助您转换数据。或者您可以使用 Data Wrangler 在创建流时默认添加的数据类型转换。要使用此转换,请从类型下拉列表中选择数据类型,选择预览,然后选择更新

    有关字段必需的数据类型的信息,请参阅架构中与您的域和数据集类型对应的部分。

  • 处理缺失值和异常值:如果您生成缺失值或异常值见解,则可以使用 Data Wrangler 转换处理异常值处理缺失值来解决这些问题。

  • 自定义转换:使用 Data Wrangler,你可以使用 Python(用户定义函数) PySpark、pandas 或 () 创建自己的转换。 PySpark SQL您可以使用自定义转换来执行诸如删除重复列或按列分组之类的任务。有关更多信息,请参阅《Amazon SageMaker 开发者指南》中的自定义转换