连接器和实用工具 - Amazon EMR

连接器和实用工具

Amazon EMR 提供多个连接器和实用工具来访问作为数据源的其它 AWS 服务。您通常可在一个程序内访问这些服务中的数据。例如,您可在 Hive 查询、Pig 脚本或 MapReduce 应用程序中指定 Kinesis 流,然后在相应数据上操作。

在 S3DistCP 作业失败后清理

如果 S3DistCp 无法复制部分或全部指定文件,则此命令或集群步骤会失败,并返回一个非零错误代码。如果发生此情况,S3DistCp 将不会清理部分复制的文件。您必须手动删除它们。

部分复制的文件保存到具有 S3DistCp 作业唯一标识符的子目录中的 HDFS tmp 目录下。您可以在作业的标准输出中找到此 ID。

例如,对于具有 ID 4b1c37bb-91af-4391-aaf8-46a6067085a6 的 S3DistCP 作业,您可以连接到集群的主节点,并运行以下命令以查看与作业关联的输出文件。

hdfs dfs -ls /tmp/4b1c37bb-91af-4391-aaf8-46a6067085a6/output

该命令将返回与以下类似的文件列表:

Found 8 items -rw-r‑‑r‑‑ 1 hadoop hadoop 0 2018-12-10 06:03 /tmp/4b1c37bb-91af-4391-aaf8-46a6067085a6/output/_SUCCESS -rw-r‑‑r‑‑ 1 hadoop hadoop 0 2018-12-10 06:02 /tmp/4b1c37bb-91af-4391-aaf8-46a6067085a6/output/part-r-00000 -rw-r‑‑r‑‑ 1 hadoop hadoop 0 2018-12-10 06:02 /tmp/4b1c37bb-91af-4391-aaf8-46a6067085a6/output/part-r-00001 -rw-r‑‑r‑‑ 1 hadoop hadoop 0 2018-12-10 06:02 /tmp/4b1c37bb-91af-4391-aaf8-46a6067085a6/output/part-r-00002 -rw-r‑‑r‑‑ 1 hadoop hadoop 0 2018-12-10 06:03 /tmp/4b1c37bb-91af-4391-aaf8-46a6067085a6/output/part-r-00003 -rw-r‑‑r‑‑ 1 hadoop hadoop 0 2018-12-10 06:03 /tmp/4b1c37bb-91af-4391-aaf8-46a6067085a6/output/part-r-00004 -rw-r‑‑r‑‑ 1 hadoop hadoop 0 2018-12-10 06:03 /tmp/4b1c37bb-91af-4391-aaf8-46a6067085a6/output/part-r-00005 -rw-r‑‑r‑‑ 1 hadoop hadoop 0 2018-12-10 06:03 /tmp/4b1c37bb-91af-4391-aaf8-46a6067085a6/output/part-r-00006

然后,您可以运行以下命令来删除目录和所有内容。

hdfs dfs rm -rf /tmp/4b1c37bb-91af-4391-aaf8-46a6067085a6