メニュー
Amazon Redshift
データベース開発者ガイド (API Version 2012年12月1日)

チュートリアル: Amazon S3 からデータをロードする

このチュートリアルでは、Amazon Simple Storage Service (Amazon S3) バケット内のデータファイルから Amazon Redshift データベースのテーブルに、データを最初から最後までロードする手順を説明します。

このチュートリアルでは、次の作業を行います。

  • CSV 形式、文字区切り形式、固定幅形式のデータファイルをダウンロードします。

  • Amazon S3 バケットを作成し、データファイルをバケットにアップロードします。

  • Amazon Redshift クラスターを起動し、データベースのテーブルを作成します。

  • COPY コマンドを使用して、Amazon S3 のデータファイルからテーブルをロードします。

  • ロードエラーをトラブルシューティングし、COPY コマンドを変更してエラーを修正します。

推定時間: 60 分

推定コスト: クラスターに対して 1.00 USD/時間

前提条件

次のような前提条件を満たしている必要があります。

  • Amazon Redshift クラスターを起動し、Amazon S3 でバケットを作成するための AWS アカウント。

  • Amazon S3 からテストデータをロードするためのお客様の AWS 認証情報 (アクセスキー ID およびシークレットアクセスキー)。新しいアクセスキーを作成する必要がある場合は、「IAM ユーザーのアクセスキーの管理」を参照してください。

このチュートリアルはそれだけで実行できるように設計されています。このチュートリアルに加えて Amazon Redshift データベースを設計および使用方法の詳細を理解するには、以下のチュートリアルを完了することをお勧めします。

  • Amazon Redshift 入門ガイド では、Amazon Redshift クラスターを作成し、サンプルデータをロードするプロセスを説明します。

  • チュートリアル: テーブル設計のチューニング」では、ソートキー、分散スタイル、圧縮エンコードの選択など、テーブルを設計およびチューニングし、チューニング前後のシステムパフォーマンスを評価するプロセスについて順を追って説明しています。

概要

INSERT コマンドを使用するか、または COPY コマンドを使用することによって、Amazon Redshift テーブルにデータを追加できます。Amazon Redshift データウェアハウスの規模とスピードでは、COPY コマンドの方が INSERT コマンドよりも何倍も高速で、より効率的です。

COPY コマンドは Amazon Redshift の超並列処理 (MPP) アーキテクチャを使用し、複数のデータソースからデータを並列で読み取ってロードします。Amazon S3 のデータファイル、Amazon EMR、または Secure Shell (SSH) 接続でアクセス可能なリモートホストからロードできます。あるいは、Amazon DynamoDB テーブルから直接ロードできます。

このチュートリアルでは、COPY コマンドを使用して Amazon S3 からデータをロードします。ここで示す原則の多くは、他のデータソースからのロードにも適用されます。

COPY コマンドの使用の詳細については、次のリソースを参照してください。

ステップ

このページの内容: