AWS Data Pipeline
開発者ガイド (API バージョン 2012-10-29)

コンソールを使用したパイプラインの手動作成

テンプレートを使用せずに、AWS Data Pipeline コンソールを使用してパイプラインを作成できます。サンプルのパイプラインでは、AWS Data Pipeline を使用して、スケジュールに従って Amazon S3 バケット間で CSV をコピーします。

前提条件

ファイルコピーのソースおよびターゲットとしてこの手順に使用する Amazon S3 バケット。詳細については、Amazon Simple Storage Service 入門ガイドの「バケットの作成」を参照してください。

パイプライン定義の作成

パイプライン作成の最初の画面を完了して、パイプライン定義を作成します。

パイプライン定義を作成するには

  1. https://console.aws.amazon.com/datapipeline/ で AWS Data Pipeline コンソールを開きます。

  2. [Get started now](初めてパイプラインを作成する場合)または [Create new pipeline] をクリックします。

  3. [Name] に、パイプラインの名前(例: CopyMyS3Data)を入力します。

  4. [ Description] に説明を入力します。

  5. パイプライン定義の [Source] を選択します。テンプレートを使用することも、JSON ベースの既存のパイプライン定義をローカルファイルシステムまたは Amazon S3 バケットからインポートすることも、Architect ページでインタラクティブにパイプラインを作成することもできます。

    テンプレートでは、AWS Data Pipeline での共通のシナリオが提供されます。関連するパラメータ値を入力することにより、ニーズに合わせてテンプレートをカスタマイズできます。

    注記

    既存のパイプライン定義に複数のスケジュールが含まれる場合、スケジュールは [Create Pipeline] (パイプラインの作成) ページに表示されませんが、[Architect] (設計) ページに進むとスケジュールが表示されます。

  6. [Pipeline Configuration] でログ記録を有効にした場合は、このパイプラインのログを保存するための Amazon S3 バケットを選択します。

  7. [Schedule] の各フィールドは、デフォルトのままにしておきます。

  8. [IAM roles] は [Default] のままにしておきます。

    独自の IAM ロールを作成した場合に、それらのロールを使用するには、[Custom] をクリックし、[Pipeline role] リストと [EC2 instance role] リストからロールを選択します。

  9. [Create] をクリックします。

アクティビティの定義

Activity オブジェクトをパイプライン定義に追加します。Activity オブジェクトを定義するときに、このアクティビティを実行するために AWS Data Pipeline が必要とするオブジェクトも定義する必要があります。

パイプラインのアクティビティを定義するには

  1. パイプラインページで、[Add activity] をクリックします。

  2. [Activities] ペインの [Name] に、アクティビティの名前(例: copy-myS3-data)を入力します。

  3. [Type] で、[CopyActivity] を選択します。

  4. [Schedule] で、[Create new: Schedule] を選択します。

  5. [Input] で、[Create new: DataNode] を選択します。

  6. [Output] で、[Create new: DataNode] を選択します。

  7. [Add an optional field] で、[RunsOn] を選択します。

  8. [Runs On] で、[Create new: Resource] を選択します。

  9. 左側のペインで、アイコンをドラッグしてアイコンの間隔を空けます。

    これは、パイプラインを図で示したものです。矢印は各種オブジェクト間の接続を示します。パイプラインは、次の図のようになります。

    
                                1 つのアクティビティと 2 つのデータノードが含まれた、新しいパイプライン

スケジュールの設定

パイプラインの実行日時を設定します。​AWS Data Pipeline では、"YYYY-MM-DDTHH:MM:SS" という形式で表される UTC/GMT の日時のみがサポートされています。

パイプラインの実行日時を設定するには

  1. パイプラインのページの右ペインで、[Schedules] を展開します。

  2. このアクティビティのスケジュール名(例: copy-myS3-data-schedule)を入力します。

  3. [Start Date Time] で、カレンダーから日付を選択し、アクティビティを開始する時刻を入力します。

  4. [Period] で、アクティビティの期間(例: 1)を入力し、さらに期間カテゴリ(例: Days)を選択します。

  5. (オプション)アクティビティを終了する日付と時刻を指定するには、[Add an optional field] で [End Date Time] を選択して日付と時刻を入力します。

    パイプラインをすぐに起動するには、[Start Date Time (開始日付と時刻)] に過去の任意の日付を入力します。AWS Data Pipeline は、未処理の作業として認識された項目を解決するために、"期限が過ぎた" 実行を直ちに開始します。このバックフィリングは、AWS Data Pipeline が最初のクラスターを起動するまで 1 時間待つ必要がないことを意味します。

データノードの設定

パイプラインの入出力データノードを設定します。

パイプラインの入出力データノードを設定するには

  1. パイプラインのページの右ペインで、[DataNodes] をクリックします。

  2. [DefaultDataNode1] で、入力ノードとして使用する Amazon S3 バケットの名前(例: MyS3Input)を [Name] に入力します。

  3. [Type] で、[S3DataNode] を選択します。

  4. [Schedule] で、[copy-myS3-data-schedule] を選択します。

  5. [Add an optional field] で、[File Path] を選択します。

  6. [File Path (ファイルパス)] に Amazon S3 バケットへのパスを入力します (s3://my-data-pipeline-input/data など)。

  7. [DefaultDataNode2] で、出力ノードとして使用する Amazon S3 バケットの名前(例: MyS3Output)を [Name] に入力します。

  8. [Type] で、[S3DataNode] を選択します。

  9. [Schedule] で、[copy-myS3-data-schedule] を選択します。

  10. [Add an optional field] で、[File Path] を選択します。

  11. [File Path (ファイルパス)] に Amazon S3 バケットへのパスを入力します (s3://my-data-pipeline-output/data など)。

リソースの設定

AWS Data Pipeline がコピーアクティビティの実行に使用する必要があるリソースとして EC2 インスタンスを設定します。

パイプライン用に EC2 インスタンスを設定するには

  1. パイプラインのページの右ペインで、[Resources] をクリックします。

  2. [Name] に、リソースの名前(例: CopyDataInstance)を入力します。

  3. [Type] で、[Ec2Resource] を選択します。

  4. [EC2-VPC] [Add an optional field] で、[Subnet Id] を選択します。

  5. [EC2-VPC] [Subnet Id] に、サブネットの ID を入力します。

  6. [Schedule] で、[copy-myS3-data-schedule] を選択します。

  7. [Role] および [Resource Role] は、デフォルト値のままにしておきます。

    独自の IAM ロールを作成した場合に、それらのロールを使用するには、[Custom] をクリックし、[Pipeline role] リストと [EC2 instance role] リストからロールを選択します。

パイプラインの検証と保存

作成プロセス中は、任意の時点でパイプライン定義を保存できます。パイプライン定義を保存すると、AWS Data Pipeline はパイプライン定義に構文エラーや欠落している値がないかどうかを確認します。パイプラインが不完全であるか正しくない場合、AWS Data Pipeline は検証エラーと警告を生成します。警告メッセージは情報提供のみに使用されますが、パイプラインをアクティブ化するには、エラーを修正しておく必要があります。

パイプラインを保存し、検証するには

  1. [Save pipeline] を選択します。

  2. AWS Data Pipeline がパイプライン定義を検証し、成功、エラー、または警告のメッセージを返します。エラーメッセージが表示された場合は、[Close] を選択し、右ペインで [Errors/Warnings] を選択します。

  3. [Errors/Warnings] ペインには、検証に失敗したオブジェクトがリストされます。オブジェクト名の横のプラス(+)記号を選択し、赤色のエラーメッセージを探します。

  4. エラーメッセージが表示された場合は、エラーが表示されたオブジェクトのペインに移動してエラーを修正します。たとえば、DataNodes オブジェクトにエラーメッセージが表示されている場合、[DataNodes] ペインに移動してエラーを修正します。

  5. [Errors/Warnings] ペインにリストされたエラーを修正したら、[Save Pipeline] を選択します。

  6. パイプラインが正常に検証されるまで、プロセスを繰り返します。

パイプラインのアクティブ化

実行の作成と処理を開始するパイプラインをアクティブ化します。パイプラインは、パイプライン定義のスケジュールと期間に基づいて開始します。

重要

アクティブ化が正常に完了すると、パイプラインが実行され、使用料金が発生する可能性があります。詳細については、「AWS Data Pipeline 料金表」を参照してください。AWS Data Pipeline の使用料金が発生しないようにするには、パイプラインを削除します。

パイプラインをアクティブ化するには

  1. [Activate] を選択します。

  2. 確認ダイアログボックスで [Close] を選択します。