ステップ 1: データを準備する - Amazon Machine Learning

Amazon Machine Learning サービスの更新や、その新しいユーザーの受け入れは行っていません。このドキュメントは既存のユーザー向けに提供されていますが、更新は終了しています。詳細については、「Amazon Machine Learning とは」を参照してください。

ステップ 1: データを準備する

機械学習では、通常はデータを取得し、トレーニングを開始する前にそれが正しくフォーマットされていることを確認します。このチュートリアルのために、サンプルデータセットを UCI Machine Learning リポジトリから取得し、Amazon ML ガイドラインに準拠するようフォーマットし、ダウンロードできるようにしました。このトピックの手順に従って、データセットを Amazon Simple Storage Service (Amazon S3) ストレージの場所からダウンロードし、自分の S3 バケットにアップロードしてください。

Amazon ML フォーマット要件については、「Amazon ML のデータ形式について」を参照してください。

データセットをダウンロードするには
  1. banking.zip をクリックして、あなたの銀行の定期預金に似ている製品を購入したお客様の履歴データが保存されているファイルをダウンロードします。フォルダーを解凍し、banking.csv ファイルをコンピュータに保存します。

  2. banking-batch.zip をクリックして、可能性のある顧客が提供に反応するかどうかの予測に使用するファイルをダウンロードします。フォルダーを解凍し、banking-batch.csv ファイルをコンピュータに保存します。

  3. banking.csv を開きます。データの行と列が表示されます。ヘッダー行 には、各列の属性名が含まれています。属性 は一意の指名プロパティで、各カスタマーの特定の特性を記述するもので、たとえば nr_employed ならカスタマーの雇用状態を表します。各行は、単一のカスタマーに関する観測のコレクションを表します。

    ML モデルに、「このカスタマーは新しい製品をサブスクライブしますか」という質問に答えてもらうとします。この質問への答えは banking.csv データセットの [y] 属性値で、値は 1 (はい) または 0 (いいえ) です。Amazon ML に予測方法を学習してもらいたい属性を、ターゲット属性 と呼びます。

    注記

    属性 [y] はバイナリ属性です。2 つの値のいずれか 1 つのみを含めることができ、この場合は 0 または 1 です。元の UCI データセットでは、y 属性は、[Yes] または [No] です。元のデータセットは編集されています。[y] 属性の yes を意味するすべての値が 1 に、no を意味するすべての値が 0 になっています。独自のデータを使用する場合は、バイナリ属性に他の値を使用することができます。有効な値の詳細については、「AttributeType フィールドの使用」を参照してください。

以下の例は、[y] 属性の値をバイナリ属性 0 および 1 に変更する前後のデータを示しています。

banking-batch.csv ファイルに [y] 属性は含まれていません。ML モデルを作成した後で、そのモデルを使用してファイル内の各レコードの [y] を予測します。

次に、banking.csv および banking-batch.csv ファイルを Amazon S3 にアップロードします。

Amazon S3 の場所にファイルをアップロードするには
  1. AWS Management Console にサインインし、Amazon S3 コンソール https://console.aws.amazon.com/s3/ を開きます。

  2. [すべてのバケット] リストで、バケットを作成するか、ファイルをアップロードする場所を選択します。

  3. ナビゲーションバーで、[アップロード] を選択します。

  4. [Add Files] を選択します。

  5. ダイアログボックスでデスクトップに移動してから banking.csv および banking-batch.csv を選択し、[オープン] を選択します。

これで、トレーニングデータソースを作成する 準備ができました。