コネクターおよびユーティリティ - Amazon EMR

コネクターおよびユーティリティ

Amazon EMR には複数のコネクターおよびユーティリティがあり、他の AWS サービスにデータソースとしてアクセスします。これらのサービスのデータには、通常プログラム内でアクセスします。たとえば、Hive クエリ、Pig スクリプト、または MapReduce アプリケーションの Kinesis ストリームを指定し、そのデータを操作できます。

S3DistCp ジョブが失敗した後のクリーンアップ

指定したファイルの一部またはすべてを S3DistCp がコピーできない場合、コマンドまたはクラスターステップは失敗し、ゼロ以外のエラーコードを返します。この場合、S3DistCp では、コピーされたファイルの一部がクリーンアップされません。手動で削除する必要があります。

部分的にコピーされたファイルは、S3DistCp ジョブの一意の識別子が付けられて、サブディレクトリの HDFS tmp ディレクトリに保存されます。この ID はジョブの標準出力に含まれます。

たとえば、S3DistCp ジョブの ID が 4b1c37bb-91af-4391-aaf8-46a6067085a6 の場合、クラスターのマスターノードに接続し、以下のコマンドを実行して、ジョブに関連付けられた出力ファイルを表示できます。

hdfs dfs -ls /tmp/4b1c37bb-91af-4391-aaf8-46a6067085a6/output

このコマンドによって以下のようなファイルのリストが返されます。

Found 8 items -rw-r‑‑r‑‑ 1 hadoop hadoop 0 2018-12-10 06:03 /tmp/4b1c37bb-91af-4391-aaf8-46a6067085a6/output/_SUCCESS -rw-r‑‑r‑‑ 1 hadoop hadoop 0 2018-12-10 06:02 /tmp/4b1c37bb-91af-4391-aaf8-46a6067085a6/output/part-r-00000 -rw-r‑‑r‑‑ 1 hadoop hadoop 0 2018-12-10 06:02 /tmp/4b1c37bb-91af-4391-aaf8-46a6067085a6/output/part-r-00001 -rw-r‑‑r‑‑ 1 hadoop hadoop 0 2018-12-10 06:02 /tmp/4b1c37bb-91af-4391-aaf8-46a6067085a6/output/part-r-00002 -rw-r‑‑r‑‑ 1 hadoop hadoop 0 2018-12-10 06:03 /tmp/4b1c37bb-91af-4391-aaf8-46a6067085a6/output/part-r-00003 -rw-r‑‑r‑‑ 1 hadoop hadoop 0 2018-12-10 06:03 /tmp/4b1c37bb-91af-4391-aaf8-46a6067085a6/output/part-r-00004 -rw-r‑‑r‑‑ 1 hadoop hadoop 0 2018-12-10 06:03 /tmp/4b1c37bb-91af-4391-aaf8-46a6067085a6/output/part-r-00005 -rw-r‑‑r‑‑ 1 hadoop hadoop 0 2018-12-10 06:03 /tmp/4b1c37bb-91af-4391-aaf8-46a6067085a6/output/part-r-00006

その後、以下のコマンドを実行して、ディレクトリとそのすべての内容を削除できます。

hdfs dfs rm -rf /tmp/4b1c37bb-91af-4391-aaf8-46a6067085a6