Amazon EMR からのデータのロード

COPY コマンドを使用することで、クラスターの Hadoop Distributed File System (HDFS) に、固定幅ファイル、文字区切りファイル、CSV ファイル、または JSON 形式ファイルでテキストファイルを書き込むように設定された Amazon EMR クラスターから、データを並列にロードできます。

Amazon EMR からデータをロードするプロセス

このセクションでは、Amazon EMR クラスターからデータをロードする手順について説明します。以下のセクションでは、各ステップで必要な操作の詳細を説明します。

ステップ 1: IAM のアクセス許可を設定する

Amazon EMR クラスターを作成して Amazon Redshift の COPY コマンドを実行するユーザーには、そのための許可が必要です。
ステップ 2: Amazon EMR クラスターを作成する

テキストファイルを Hadoop Distributed File System（HDFS）に出力するようにクラスターの設定を変更します。Amazon EMR クラスター ID およびそのクラスターのメインの公開 DNS (クラスターをホストする Amazon EC2 インスタンスのエンドポイント) が必要になります。
ステップ 3: Amazon Redshift クラスターの公開キーおよびクラスターノード IP アドレスを取得する

公開キーは、Amazon Redshift クラスターノードがホストへの SSH 接続を確立するために使用されます。ホストのセキュリティグループに各クラスターノードの IP アドレスを設定し、その IP アドレスで Amazon Redshift クラスターからアクセスできるようにします。
ステップ 4: 各 Amazon EC2 ホストの承認されたキーファイルに Amazon Redshift クラスターの公開キーを追加する

ホストが Amazon Redshift クラスターを認識し、SSH 接続を許可するように、ホストの認可されたキーファイルに Amazon Redshift クラスターの公開キーを追加します。
ステップ 5: Amazon Redshift クラスターの IP アドレスすべてを許可するようにホストを設定する

Amazon EMR インスタンスのセキュリティグループを変更して、Amazon Redshift の IP アドレスを許可する入力ルールを追加します。
ステップ 6: COPY コマンドを実行してデータをロードする

Amazon Redshift データベースから COPY コマンドを実行して、Amazon Redshift テーブルにデータをロードします。

ブラウザで JavaScript が無効になっているか、使用できません。

AWS ドキュメントを使用するには、JavaScript を有効にする必要があります。手順については、使用するブラウザのヘルプページを参照してください。

ドキュメントの表記規則

暗号化されたデータファイルをロードする

ステップ 1: IAM のアクセス許可を設定する