連接器與公用程式 - Amazon EMR

連接器與公用程式

Amazon EMR 提供多種連接器和公用程式,以供存取其他 AWS 服務作為資料來源。您通常可以在某個程式裡存取多項服務的資料。例如,您可以在 Hive 查詢、Pig 指令碼或 MapReduce 應用程式內指定某個 Kinesis 串流,然後對該資料執行操作。

S3DistCp 作業失敗之後清除

若 S3DistCp 無法複製部分或全部的指定檔案,命令或叢集步驟會失敗,並傳回非零的錯誤代碼。若發生此種狀況,S3DistCp 不會清除掉部分複製的檔案。您必須手動刪除這些檔案。

部分複製的檔案會儲存到子目錄 (具有 S3DistCp 任務的唯一識別符) 的 HDFS tmp 目錄中。您可以在任務的標準輸出中找到此 ID。

例如,對於 ID 為 4b1c37bb-91af-4391-aaf8-46a6067085a6 的 S3DistCp 任務,您可以連接到叢集的主節點,並執行以下命令以檢視與該任務相關聯的輸出檔案。

hdfs dfs -ls /tmp/4b1c37bb-91af-4391-aaf8-46a6067085a6/output

該命令會傳回類似如下的檔案清單:

Found 8 items -rw-r‑‑r‑‑ 1 hadoop hadoop 0 2018-12-10 06:03 /tmp/4b1c37bb-91af-4391-aaf8-46a6067085a6/output/_SUCCESS -rw-r‑‑r‑‑ 1 hadoop hadoop 0 2018-12-10 06:02 /tmp/4b1c37bb-91af-4391-aaf8-46a6067085a6/output/part-r-00000 -rw-r‑‑r‑‑ 1 hadoop hadoop 0 2018-12-10 06:02 /tmp/4b1c37bb-91af-4391-aaf8-46a6067085a6/output/part-r-00001 -rw-r‑‑r‑‑ 1 hadoop hadoop 0 2018-12-10 06:02 /tmp/4b1c37bb-91af-4391-aaf8-46a6067085a6/output/part-r-00002 -rw-r‑‑r‑‑ 1 hadoop hadoop 0 2018-12-10 06:03 /tmp/4b1c37bb-91af-4391-aaf8-46a6067085a6/output/part-r-00003 -rw-r‑‑r‑‑ 1 hadoop hadoop 0 2018-12-10 06:03 /tmp/4b1c37bb-91af-4391-aaf8-46a6067085a6/output/part-r-00004 -rw-r‑‑r‑‑ 1 hadoop hadoop 0 2018-12-10 06:03 /tmp/4b1c37bb-91af-4391-aaf8-46a6067085a6/output/part-r-00005 -rw-r‑‑r‑‑ 1 hadoop hadoop 0 2018-12-10 06:03 /tmp/4b1c37bb-91af-4391-aaf8-46a6067085a6/output/part-r-00006

然後,您可以執行以下命令來刪除目錄和所有內容。

hdfs dfs rm -rf /tmp/4b1c37bb-91af-4391-aaf8-46a6067085a6