チュートリアル: Amazon S3 からデータをロードする - Amazon Redshift

チュートリアル: Amazon S3 からデータをロードする

このチュートリアルでは、Amazon S3 バケット内のデータファイルから Amazon Redshift データベースのテーブルに、データを最初から最後までロードする手順を説明します。

このチュートリアルでは、以下の作業を行います。

  • コンマ区切り (CSV) 形式、文字区切り形式、固定幅形式のデータファイルをダウンロードします。

  • Amazon S3 バケットを作成し、データファイルをバケットにアップロードします。

  • Amazon Redshift クラスターを起動し、データベーステーブルを作成します。

  • COPY コマンドを使用して、Amazon S3 のデータファイルからテーブルをロードします。

  • ロードエラーをトラブルシューティングし、COPY コマンドを変更してエラーを修正します。

推定時間: 60 分

推定コスト: クラスターに対して 1.00 USD/時間

前提条件

次の前提条件を満たしている必要があります。

  • Amazon Redshift クラスターを起動し、Amazon S3 でバケットを作成するための AWS アカウント。

  • Amazon S3 からテストデータをロードするための AWS 認証情報 (IAM ロール)。新しい IAM ロールが必要な場合は、「IAM ロールの作成」を参照してください。

  • Amazon Redshift コンソールクエリエディタなどの SQL クライアント。

このチュートリアルはそれだけで実行できるように設計されています。このチュートリアルに加えて Amazon Redshift データベースを設計および使用方法の詳細を理解するには、以下のチュートリアルを完了することをお勧めします。

  • Amazon Redshift 入門ガイドでは、Amazon Redshift クラスターを作成してサンプルデータをロードするプロセスについて説明します。

概要

INSERT コマンドを使用するか、または COPY コマンドを使用することで、Amazon Redshift テーブルにデータを追加できます。Amazon Redshift データウェアハウスの規模とスピードでは、COPY コマンドの方が INSERT コマンドよりも何倍も高速で、より効率的です。

COPY コマンドは Amazon Redshift の超並列処理 (MPP) アーキテクチャを使用し、複数のデータソースからデータを並列で読み込んでロードします。Amazon S3 のデータファイル、Amazon EMR、または Secure Shell (SSH) 接続でアクセス可能なリモートホストからロードできます。あるいは Amazon DynamoDB テーブルから直接ロードできます。

このチュートリアルでは、COPY コマンドを使用して Amazon S3 からデータをロードします。ここで示す原則の多くは、他のデータソースからのロードにも適用されます。

COPY コマンドの使用の詳細については、次のリソースを参照してください。

ステップ