Amazon EMR からのデータのロード
COPY コマンドを使用することで、クラスターの Hadoop Distributed File System (HDFS) に、固定幅ファイル、文字区切りファイル、CSV ファイル、または JSON 形式ファイルでテキストファイルを書き込むように設定された Amazon EMR クラスターから、データを並列にロードできます。
Amazon EMR からデータをロードするプロセス
このセクションでは、Amazon EMR クラスターからデータをロードする手順について説明します。以下のセクションでは、各ステップで必要な操作の詳細を説明します。
-
Amazon EMR クラスターを作成して Amazon Redshift の COPY コマンドを実行するユーザーには、そのための許可が必要です。
-
テキストファイルを Hadoop Distributed File System(HDFS)に出力するようにクラスターの設定を変更します。Amazon EMR クラスター ID およびそのクラスターのマスター公開 DNS (クラスターをホストする Amazon EC2 インスタンスのエンドポイント) が必要になります。
-
ステップ 3: Amazon Redshift クラスターの公開キーおよびクラスターノード IP アドレスを取得する
公開キーは、Amazon Redshift クラスターノードがホストへの SSH 接続を確立するために使用されます。ホストのセキュリティグループに各クラスターノードの IP アドレスを設定し、その IP アドレスで Amazon Redshift クラスターからアクセスできるようにします。
-
ステップ 4: 各 Amazon EC2 ホストの承認されたキーファイルに Amazon Redshift クラスターの公開キーを追加する
ホストが Amazon Redshift クラスターを認識し、SSH 接続を許可するように、ホストの認可されたキーファイルに Amazon Redshift クラスターの公開キーを追加します。
-
ステップ 5: Amazon Redshift クラスターの IP アドレスすべてを許可するようにホストを設定する
Amazon EMR インスタンスのセキュリティグループを変更して、Amazon Redshift の IP アドレスを許可する進入ルールを追加します。
-
ステップ 6: COPY コマンドを実行してデータをロードする
Amazon Redshift データベースから COPY コマンドを実行して、Amazon Redshift テーブルにデータをロードします。