ONE_HOT_ENCODING - AWS Glue DataBrew

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

ONE_HOT_ENCODING

创建 n 个数值列,其中 n 是所选类别变量中唯一值的数量。

例如,假设一个名为的列shirt_size。衬衫有小号、中号、大号或超大号可供选择。列数据可能类似如下所示。

shirt_size ----------- L XL M S M M S XL M L XL M

在这种情况下,有四个不同的值shirt_size。因此,ONE_HOT_ENCODING生成四个新列。每个新列都被命名shirt_size_x,其中x代表一个不同的shirt_size 值。

的结果shirt_size和生成的四列如下所示。

shirt_size shirt_size_S shirt_size_M shirt_size_L shirt_size_XL ------------ ------------ ------------ ------------ ------------- L 0 0 1 0 XL 0 0 0 1 M 0 1 0 0 S 1 0 0 0 M 0 1 0 0 M 0 1 0 0 S 1 0 0 0 XL 0 0 0 1 M 0 1 0 0 L 0 0 1 0 XL 0 0 0 1 M 0 1 0 0

您指定的列最多ONE_HOT_ENCODING可以有十 (10) 个不同的值。

参数
  • sourceColumn – 现有列的名称。列最多可以有 10 个不同的值。

例 示例

{ "RecipeAction": { "Operation": "ONE_HOT_ENCODING", "Parameters": { "sourceColumn": "shirt_size" } } }