步骤 1:准备数据 - Amazon Machine Learning

我们不再更新 Amazon Machine Learning 服务,也不再接受新用户使用该服务。本文档可供现有用户使用,但我们不会再对其进行更新。有关更多信息,请参阅什么是 Amazon Machine Learning

步骤 1:准备数据

在机器学习中,您通常会获取数据并确保它经过了正确格式化,然后再开始训练过程。出于本教程的目的,我们从 UCI 机器学习存储库获取示例数据集,将其格式化以遵循 Amazon ML 指南,并使其可供您下载。按照本主题中的以下过程操作,从我们的 Amazon Simple Storage Service (Amazon S3) 存储位置下载数据集,并将其上传到您自己的 S3 存储桶。

有关 Amazon ML 格式化要求,请参阅了解 Amazon ML 的数据格式

下载数据集
  1. 单击 banking.zip,下载包含客户历史记录数据的文件,这些客户购买的产品与您的银行定期存款类似。解压缩该文件夹并将 banking.csv 文件保存到您的计算机上。

  2. 单击 banking-batch.zip,下载您将用来预测潜在客户是否会响应您方案的文件。解压缩该文件夹并将 banking-batch.csv 文件保存到您的计算机上。

  3. 打开 banking.csv。您将看到数据的行和列。标题行 包含各列的属性名称。属性 是指定的唯一属性,描述各客户的具体特征;例如 nr_employed 指示客户的雇佣状态。各行表示各个客户的相关观察的集合。

    您希望 ML 模型回答问题“此客户是否会订阅我的新产品?”。在 banking.csv 数据集中,此问题的答案是属性 y,该属性包含值 1(表示“是”)或 0(表示“否”)。您希望 Amazon ML 用来学习如何进行预测的属性称为目标属性

    注意

    属性 y 是一个二进制属性。它只包含两个值之一,在这种情况下为 0 或 1。在原始 UCI 数据集中,y 属性为 Yes 或 No。我们已经为您编辑了原始数据集。属性 y 的所有表示 yes 的值现在是 1,所有表示 no 的值现在是 0。如果使用自己的数据,您可以为二进制属性使用其他值。有关有效值的更多信息,请参阅使用 AttributeType 字段

以下示例显示我们将属性 y 中的值更改为二进制属性 0 和 1 前后的数据。

banking-batch.csv 文件不包含 y 属性。在创建了 ML 模型之后,您将使用该模型来预测该文件中各个记录的 y

接下来,上传 banking.csv banking-batch.csv 文件到 Amazon S3。

将文件上传到 Amazon S3 位置
  1. 登录到 AWS Management Console,然后通过以下网址打开 Amazon S3 控制台:https://console.aws.amazon.com/s3/

  2. 所有存储桶列表中,创建存储桶或者选择您希望将文件上传到的位置。

  3. 在导航栏中,选择上传

  4. 选择 Add Files

  5. 在对话框中,导航到桌面,选择 banking.csvbanking-batch.csv,然后选择打开

现在您已准备就绪,可创建训练数据源