コマンドラインを使用した Amazon Redshift へのデータのコピー - AWS Data Pipeline

コマンドラインを使用した Amazon Redshift へのデータのコピー

このチュートリアルでは、データを Amazon S3 から Amazon Redshift にコピーする方法を示します。Amazon Redshift に新しいテーブルを作成してから、AWS Data Pipeline を使用して、CSV 形式の入力データのサンプルが含まれているパブリックの Amazon S3 バケットからこのテーブルにデータを転送します。ログはお客様が所有する Amazon S3 バケットに保存されます。

Amazon S3 は、クラウドにデータを保存できるウェブサービスです。詳細については、Amazon Simple Storage Serviceユーザーガイドを参照してください。Amazon Redshift は、クラウド内のデータウェアハウスサービスです。詳細については、「Amazon Redshift 管理ガイド」を参照してください。

前提条件

開始する前に、次のステップを完了しておく必要があります。

  1. コマンドラインインターフェイス (CLI) をインストールして設定します。詳細については、「AWS Data Pipelineへのアクセス」を参照してください。

  2. DataPipelineDefaultRoleDataPipelineDefaultResourceRole という名前の IAM ロールが存在していることを確認します。AWS Data Pipeline コンソールにより、自動的にこれらのロールが作成されます。AWS Data Pipeline コンソールをまだ 1 回も使用したことがない場合、これらのロールを手動で作成する必要があります。詳細については、「AWS Data Pipeline の IAM ロール」を参照してください。

  3. Amazon Redshift で COPY コマンドをセットアップします。これは AWS Data Pipeline でコピーを実行するときに同じオプションが機能する必要があるためです。詳細については、開始する前に: COPY オプションの設定とデータのロードを参照してください。

  4. Amazon Redshift データベースを設定します。詳細については、「パイプラインのセットアップ、セキュリティグループの作成、および Amazon Redshift クラスターの作成」を参照してください。