Aufräumen nach fehlgeschlagenen DistCp S3-Jobs

Konnektoren und Dienstprogramme

Amazon EMR bietet eine Reihe von Konnektoren und Dienstprogrammen für den Zugriff auf andere AWS Services als Datenquellen. Sie können in der Regel auf Daten in diesen Services innerhalb eines Programms zugreifen. Sie können beispielsweise einen Kinesis-Stream in einer Hive-Abfrage, einem Pig-Skript oder einer MapReduce Anwendung angeben und dann mit diesen Daten arbeiten.

Themen

Aufräumen nach fehlgeschlagenen DistCp S3-Jobs

Wenn S3 einige oder alle der angegebenen Dateien DistCp nicht kopieren kann, schlägt der Befehl oder der Clusterschritt fehl und gibt einen Fehlercode ungleich Null zurück. In diesem Fall bereinigt S3 teilweise kopierte Dateien DistCp nicht. Sie müssen sie manuell löschen.

Teilweise kopierte Dateien werden im tmp HDFS-Verzeichnis in Unterverzeichnissen mit der eindeutigen Kennung des DistCp S3-Jobs gespeichert. Die ID finden Sie in der Standardausgabe der Aufgabe.

Für einen DistCp S3-Job mit der ID können Sie 4b1c37bb-91af-4391-aaf8-46a6067085a6 beispielsweise eine Verbindung zum Master-Knoten des Clusters herstellen und den folgenden Befehl ausführen, um die mit dem Job verknüpften Ausgabedateien anzuzeigen.


hdfs dfs -ls /tmp/4b1c37bb-91af-4391-aaf8-46a6067085a6/output

Der Befehl gibt eine Liste von Dateien ähnlich der folgenden zurück:


Found 8 items
-rw-r‑‑r‑‑   1 hadoop hadoop          0 2018-12-10 06:03 /tmp/4b1c37bb-91af-4391-aaf8-46a6067085a6/output/_SUCCESS
-rw-r‑‑r‑‑   1 hadoop hadoop          0 2018-12-10 06:02 /tmp/4b1c37bb-91af-4391-aaf8-46a6067085a6/output/part-r-00000
-rw-r‑‑r‑‑   1 hadoop hadoop          0 2018-12-10 06:02 /tmp/4b1c37bb-91af-4391-aaf8-46a6067085a6/output/part-r-00001
-rw-r‑‑r‑‑   1 hadoop hadoop          0 2018-12-10 06:02 /tmp/4b1c37bb-91af-4391-aaf8-46a6067085a6/output/part-r-00002
-rw-r‑‑r‑‑   1 hadoop hadoop          0 2018-12-10 06:03 /tmp/4b1c37bb-91af-4391-aaf8-46a6067085a6/output/part-r-00003
-rw-r‑‑r‑‑   1 hadoop hadoop          0 2018-12-10 06:03 /tmp/4b1c37bb-91af-4391-aaf8-46a6067085a6/output/part-r-00004
-rw-r‑‑r‑‑   1 hadoop hadoop          0 2018-12-10 06:03 /tmp/4b1c37bb-91af-4391-aaf8-46a6067085a6/output/part-r-00005
-rw-r‑‑r‑‑   1 hadoop hadoop          0 2018-12-10 06:03 /tmp/4b1c37bb-91af-4391-aaf8-46a6067085a6/output/part-r-00006

Sie können dann den folgenden Befehl ausführen, um das Verzeichnis und den gesamten Inhalt zu löschen.


hdfs dfs rm -rf /tmp/4b1c37bb-91af-4391-aaf8-46a6067085a6

Warnung JavaScript ist in Ihrem Browser nicht verfügbar oder deaktiviert.

Zur Nutzung der AWS-Dokumentation muss JavaScript aktiviert sein. Weitere Informationen finden auf den Hilfe-Seiten Ihres Browsers.

Dokumentkonventionen

Amazon EMR 7.4.0 — Versionshinweise ZooKeeper

Tabellen in DynamoDB exportieren, importieren, abfragen und verknüpfen