Amazon Redshift データ (コンソール) でデータソースを作成する - Amazon Machine Learning

Amazon Machine Learning サービスの更新や、その新しいユーザーの受け入れは行っていません。このドキュメントは既存のユーザー向けに提供されていますが、更新は終了しています。詳細については、「Amazon Machine Learning とは」を参照してください。

Amazon Redshift データ (コンソール) でデータソースを作成する

Amazon ML コンソールには、Amazon Redshift データを使用してデータソースを作成する 2 つの方法が用意されています。データソース作成ウィザードを完了して、データソースを作成することも、Amazon Redshift データから作成したデータソースがすでにあれば、元のデータソースをコピーして設定を変更することもできます。データソースをコピーすれば、類似のデータソースを複数作成することが簡単にできます。

API を使用したデータソースの作成の詳細については、「CreateDataSourceFromRedshift」を参照してください。

以下の手順のパラメータの詳細については、データソースの作成ウィザードに必要なパラメータ を参照してください。

データソースの作成 (コンソール)

Amazon Redshift から Amazon ML データソースへデータをアンロードするには、データソース作成ウィザードを使用します。

Amazon Redshift のデータからデータソースを作成するには
  1. Amazon Machine Learning コンソール (https://console.aws.amazon.com/machinelearning/) を開きます。

  2. Amazon ML ダッシュボードの [Entities] (エンティティ) の下で、[Create new...] (新規作成...)、[Datasource] (データソース) の順に選択します。

  3. [Input data] (入力データ) ページで、[Amazon Redshift] を選択します。

  4. データソース作成ウィザードで、[クラスター識別子] にクラスターの名前を入力します。

  5. [Database name] (データベース名) には、Amazon Redshift データベースの名前を入力します。

  6. [データベースユーザー名] にデータベースのユーザー名を入力します。

  7. [データベースパスワード] にデータベースのパスワードを入力します。

  8. [IAM ロール] で、IAM ロールを選択します。まだロールがない場合は、[Create a new role] (新しいロールの作成) を選択します。Amazon ML によって自動的に IAM Amazon Redshift ロールが作成されます。

  9. Amazon Redshift の設定をテストするには、[Test Access] (アクセスのテスト) ([IAM role] (IAM ロール) の横) を選択します。提供された設定で Amazon ML が Amazon Redshift に接続できない場合は、データソースの作成を継続できません。トラブルシューティングヘルプについては、エラーのトラブルシューティング を参照してください。

  10. [SQL クエリ] には、SQL クエリを入力します。

  11. [Schema location] (スキーマの場所) では、Amazon ML がスキーマを作成するかどうかを選択します。スキーマを自分で作成した場合は、スキーマファイルに Amazon S3 パスを入力します。

  12. [Amazon S3 staging location] (Amazon S3 ステージング場所) には、Amazon ML が Amazon Redshift からアンロードしたデータを配置するバケットへの Amazon S3 パスを入力します。

  13. (オプション) [データソース名] には、データソースの名前を入力します。

  14. [検証] を選択します。Amazon ML は Amazon Redshift データベースに接続できることを確認します。

  15. [スキーマ] ページで、すべての属性のデータ型を確認し、必要に応じて修正します。

  16. [Continue] (続行) をクリックします。

  17. このデータソースを使用して ML モデルを作成または評価する場合は、[Do you plan to use this dataset to create or evaluate an ML model? (このデータセットを使用して ML モデルを作成または評価することを計画しますか?)] で [Yes (はい)] を選択します。[Yes (はい)] を選択した場合は、ターゲット行を選択します。ターゲットの詳細については、targetAttributeName フィールドの使用 を参照してください。

    予測を作成するために既に作成したモデルと共にこのデータソースを使用する場合は、[No (いいえ)] を選択します。

  18. [Continue] (続行) をクリックします。

  19. [Does your data contain an identifier? (データには識別子が含まれていますか。)] で、データに行の識別子が含まれていなければ、[No (いいえ)] を選択します。

    データに行の識別子が含まれていれば、[Yes (はい)] を選択します。行の識別子の詳細については、rowID フィールドの使用 を参照してください。

  20. [Review] (レビュー) を選択します。

  21. [レビュー] ページで、設定を確認し、[完了] を選択します。

データソースを作成した後、create an ML model に使用できます。すでにモデルを作成している場合は、データソースを evaluate an ML model または generate predictions に使用できます。

データソースのコピー (コンソール)

既存のデータソースに似たデータソースを作成する場合は、Amazon ML コンソールを使用して元のデータソースをコピーし、設定を変更できます。例えば、既存のデータソースから始めて、データスキーマを変更してデータをより一致させる、Amazon Redshift からデータをアンロードするのに使用する SQL クエリを変更する、または、Amazon Redshift クラスターにアクセスする別の AWS Identity and Access Management (IAM) ユーザーを指定することができます。

Amazon Redshift データソースをコピーして変更するには
  1. Amazon Machine Learning コンソール (https://console.aws.amazon.com/machinelearning/) を開きます。

  2. Amazon ML ダッシュボードの [Entities] (エンティティ) の下で、[Create new...] (新規作成...)、[Datasource] (データソース) の順に選択します。

  3. [Input data] (入力データ) ページの、[Where is your data?] (データの場所) で、[Amazon Redshift] を選択します。Amazon Redshift データから作成されたデータソースがすでにある場合は、別のデータソースから設定をコピーすることを選択できます。

    Amazon Redshift データから作成されたデータソースを持っていない場合は、このオプションは表示されません。

  4. [Find a datasource (データソースの検索)] を選択します。

  5. コピーするデータソースを選択し、[Copy settings] (設定のコピー) を選択します。Amazon ML が、データソース設定のほとんどに、元のデータソースからの設定を自動入力します。データベースパスワード、スキーマの場所、データソース名は元のデータソースからコピーされません。

  6. 必要に応じて、自動入力された設定を変更します。例えば、Amazon ML が Amazon Redshift からアンロードするデータを変更する場合は、SQL クエリを変更します。

  7. [データベースパスワード] にデータベースのパスワードを入力します。Amazon ML はパスワードの保存や再利用をしないため、常に自分で入力する必要があります。

  8. (オプション) [Schema location] (スキーマの場所) では、Amazon MLによって [I want Amazon ML to generate a recommended schema] (Amazon ML が推奨スキーマを生成する) が前もって選択されています。スキーマをすでに作成している場合は、[I want to use the schema that I created and stored in Amazon S3] (Amazon S3 で作成して保存したスキーマを使用する) を選択し、Amazon S3 のスキーマファイルへのパスを入力します。

  9. (オプション) [データソース名] には、データソースの名前を入力します。それ以外の場合は、Amazon ML が新しいデータソース名を生成します。

  10. [検証] を選択します。Amazon ML は Amazon Redshift データベースに接続できることを確認します。

  11. (オプション) Amazon ML が [Schema] (スキーマ) ページでスキーマを推定した場合は、スキーマのすべての属性のデータ型を確認し、必要に応じて修正します。

  12. [Continue] (続行) をクリックします。

  13. このデータソースを使用して ML モデルを作成または評価する場合は、[Do you plan to use this dataset to create or evaluate an ML model? (このデータセットを使用して ML モデルを作成または評価することを計画しますか?)] で [Yes (はい)] を選択します。[Yes (はい)] を選択した場合は、ターゲット行を選択します。ターゲットの詳細については、targetAttributeName フィールドの使用 を参照してください。

    予測を作成するために既に作成したモデルと共にこのデータソースを使用する場合は、[No (いいえ)] を選択します。

  14. [Continue] (続行) をクリックします。

  15. [Does your data contain an identifier? (データには識別子が含まれていますか。)] で、データに行の識別子が含まれていなければ、[No (いいえ)] を選択します。

    行の識別子がデータに含まれている場合は、[Yes (はい)] を選択し、識別子として使用する行を選択します。行の識別子の詳細については、rowID フィールドの使用 を参照してください。

  16. [Review] (レビュー) を選択します。

  17. 設定を確認し、[完了] を選択します。

データソースを作成した後、create an ML model に使用できます。すでにモデルを作成している場合は、データソースを evaluate an ML model または generate predictions に使用できます。