チュートリアル: Amazon S3 からデータをロードする - Amazon Redshift

「翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。」

チュートリアル: Amazon S3 からデータをロードする

このチュートリアルでは、Amazon S3 バケット内のデータファイルから Amazon Redshift データベースのテーブルに、データを最初から最後までロードする手順を説明します。

このチュートリアルでは、以下の作業を行います。

  • コンマ区切り (CSV) 形式、文字区切り形式、固定幅形式のデータファイルをダウンロードします。

  • Amazon S3 バケットを作成し、データファイルをバケットにアップロードします。

  • Amazon Redshift クラスターを起動し、データベーステーブルを作成します。

  • COPY コマンドを使用して、Amazon S3 のデータファイルからテーブルをロードします。

  • ロードエラーをトラブルシューティングし、COPY コマンドを変更してエラーを修正します。

推定時間: 60 分

推定コスト: クラスターに対して 1.00 USD/時間

Prerequisites

次の前提条件を満たしている必要があります。

  • Amazon Redshift クラスターを起動し、Amazon S3 でバケットを作成するための AWS アカウント。

  • Amazon S3 からテストデータをロードするためのお客様の AWS 認証情報 (アクセスキー ID とシークレットアクセスキー)。新しいアクセスキーを作成する必要がある場合は、「IAM ユーザーのアクセスキーの管理」を参照してください。

  • Amazon Redshift コンソールクエリエディタなどの SQL クライアント。

このチュートリアルはそれだけで実行できるように設計されています。このチュートリアルに加えて Amazon Redshift データベースを設計および使用方法の詳細を理解するには、以下のチュートリアルを完了することをお勧めします。

  • Amazon Redshift 入門ガイド では、Amazon Redshift クラスターを作成し、サンプルデータをロードするプロセスを説明します。

Overview

INSERT コマンドを使用するか、または COPY コマンドを使用することで、Amazon Redshift テーブルにデータを追加できます。Amazon Redshift データウェアハウスの規模とスピードでは、COPY コマンドの方が INSERT コマンドよりも何倍も高速で、より効率的です。

COPY コマンドは Amazon Redshift の超並列処理 (MPP) アーキテクチャを使用し、複数のデータソースからデータを並列で読み取ってロードします。Amazon S3 のデータファイル、Amazon EMR、または Secure Shell (SSH) 接続でアクセス可能なリモートホストからロードできます。あるいは Amazon DynamoDB テーブルから直接ロードできます。

このチュートリアルでは、COPY コマンドを使用して Amazon S3 からデータをロードします。ここで示す原則の多くは、他のデータソースからのロードにも適用されます。

COPY コマンドの使用の詳細については、次のリソースを参照してください。

Steps