利用 Amazon Redshift 数据创建数据源(控制台) - Amazon Machine Learning

我们不再更新 Amazon Machine Learning 服务,也不再接受新用户使用该服务。本文档可供现有用户使用,但我们不会再对其进行更新。有关更多信息,请参阅什么是 Amazon Machine Learning

利用 Amazon Redshift 数据创建数据源(控制台)

Amazon ML 控制台提供两种方式来使用 Amazon Redshift 数据创建数据源。您可以通过完成“创建数据源”向导创建数据源,或者,如果您已经利用 Amazon Redshift 数据创建数据源,您可以复制原始数据源并修改其设置。复制数据源可以轻松创建多个相似的数据源。

有关使用 API 创建数据源的信息,请参阅 CreateDataSourceFromRedshift

有关以下步骤中的参数的更多信息,请参阅 “Create Datasource”向导的必需参数

创建数据源(控制台)

要将数据从 Amazon Redshift 卸载到 Amazon ML 数据源,请使用“创建数据源”向导。

利用 Amazon Redshift 中的数据创建数据源
  1. 打开 Amazon Machine Learning 控制台,网址为 https://console.aws.amazon.com/machinelearning/

  2. 在 Amazon ML 控制面板上的实体下,选择新建...,然后选择数据源

  3. 输入数据页面上,选择 Amazon Redshift

  4. 在“创建数据源”向导中,对于集群标识符,请键入您的集群的名称。

  5. 对于数据库名称,请键入 Amazon Redshift 数据库的名称。

  6. 对于数据库用户名,请键入数据库用户名。

  7. 对于数据库密码,请键入数据库密码。

  8. 对于IAM 角色,请选择您的 IAM 角色。如果您还没有角色,请选择创建新的角色。Amazon ML 会为您创建一个 IAM Amazon Redshift 角色。

  9. 要测试您的 Amazon Redshift 设置,请选择测试访问(在 IAM 角色旁边)。如果 Amazon ML 无法使用提供的设置连接到 Amazon Redshift,则您无法继续创建数据源。有关问题排查帮助,请参阅纠正错误

  10. 对于 SQL 查询,键入您的 SQL 查询。

  11. 对于架构位置,请选择您是否希望 Amazon ML 为您创建架构。如果您已经自己创建了架构,请键入您的架构文件的 Amazon S3 路径。

  12. 对于 Amazon S3 暂存位置,请键入存储桶的 Amazon S3 路径,您希望 Amazon ML 将所卸载数据从 Amazon Redshift 放入该存储桶。

  13. (可选)对于数据源名称,请键入您数据源的名称。

  14. 选择验证。Amazon ML 将验证它是否能连接到您的 Amazon Redshift 数据库。

  15. 架构页面上,检查所有属性的数据类型并根据需要进行纠正。

  16. 选择继续

  17. 如果您希望使用此数据源创建或评估 ML 模型,则对于是否计划使用此数据集创建或评估 ML 模型?,请选择。如果您选择,请选择目标行。有关目标的信息,请参阅使用 targetAttributeName 字段

    如果您希望使用此数据源以及您已创建的模型来创建预测,请选择

  18. 选择继续

  19. 对于您的数据是否包含标识符?,如果您的数据不包含行标识符,请选择

    如果您的数据包含行标识符,请选择。有关行标识符的信息,请参阅使用 rowID 字段

  20. 选择审核

  21. 审核页上,检查您的设置,然后选择完成

创建数据源后,您可以使用它create an ML model。创建模型后,您可以使用数据源evaluate an ML modelgenerate predictions

复制数据源(控制台)

当您想要创建一个与现有数据源类似的数据源时,您可以使用 Amazon ML 控制台复制原始数据源并修改其设置。例如,您可以选择从现有的数据源开始,然后修改数据架构,以更准确地匹配您的数据;更改用于从 Amazon Redshift 卸载数据的 SQL 查询;或者指定不同的 AWS Identity and Access Management (IAM) 用户来访问 Amazon Redshift 集群。

复制和修改 Amazon Redshift 数据源
  1. 打开 Amazon Machine Learning 控制台,网址为 https://console.aws.amazon.com/machinelearning/

  2. 在 Amazon ML 控制面板上的实体下,选择新建...,然后选择数据源

  3. 输入数据页面上,对于您的数据位于何处?,选择 Amazon Redshift。如果您已经利用 Amazon Redshift 数据创建了一个数据源,您可以选择从其他数据源复制设置。

    Amazon S3 and Amazon Redshift icons with option to copy settings from existing datasource.

    如果您还没有利用 Amazon Redshift 数据创建数据源,则不会显示此选项。

  4. 选择查找数据源

  5. 选择要复制的数据源,然后选择复制设置。Amazon ML 使用原始数据源的设置自动填充大部分数据源设置。它不会从原始数据源复制数据库密码、架构位置或数据源名称。

  6. 修改您希望更改的任何自动填充设置。例如,如果您希望更改 Amazon ML 从 Amazon Redshift 卸载的数据,请更改 SQL 查询。

  7. 对于数据库密码,请键入数据库密码。Amazon ML 不会存储或重新使用您的密码,因此,您必须始终提供密码。

  8. (可选)对于架构位置,Amazon ML 预先为您选择我希望 Amazon ML 生成一个推荐的架构。如果您已经创建架构,请选择我希望使用已在 Amazon S3 中创建和存储的架构,然后键入 Amazon S3 中架构文件的路径。

  9. (可选)对于数据源名称,请键入您数据源的名称。否则,Amazon ML 会为您生成新的数据源名称。

  10. 选择验证。Amazon ML 将验证它是否能连接到您的 Amazon Redshift 数据库。

  11. (可选)如果 Amazon ML 为您推断了架构,请在架构页面上检查所有属性的数据类型,并根据需要进行更正。

  12. 选择继续

  13. 如果您希望使用此数据源创建或评估 ML 模型,则对于是否计划使用此数据集创建或评估 ML 模型?,请选择。如果您选择,请选择目标行。有关目标的信息,请参阅使用 targetAttributeName 字段

    如果您希望使用此数据源以及您已创建的模型来创建预测,请选择

  14. 选择继续

  15. 对于您的数据是否包含标识符?,如果您的数据不包含行标识符,请选择

    如果您的数据包含行标识符,请选择,然后选择您要用作标识符的行。有关行标识符的信息,请参阅使用 rowID 字段

  16. 选择审核

  17. 检查设置,然后选择完成

创建数据源后,您可以使用它create an ML model。创建模型后,您可以使用数据源evaluate an ML modelgenerate predictions