Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.
Connecteurs et utilitaires
Amazon EMR fournit plusieurs connecteurs et utilitaires permettant d'accéder à d'autres AWS services en tant que sources de données. Vous pouvez généralement accéder aux données de ces services au sein d'un programme. Par exemple, vous pouvez spécifier un flux Kinesis dans une requête Hive, un script Pig ou une MapReduce application, puis opérer sur ces données.
Rubriques
Nettoyage après l'échec des DistCp tâches S3
Si S3 DistCp ne parvient pas à copier certains ou tous les fichiers spécifiés, l'étape de commande ou de cluster échoue et renvoie un code d'erreur différent de zéro. Dans ce cas, S3 DistCp ne nettoie pas les fichiers partiellement copiés. Vous devez les supprimer manuellement.
Les fichiers partiellement copiés sont enregistrés dans le tmp
répertoire HDFS dans des sous-répertoires avec l'identifiant unique de la tâche S3DistCp . Cet identifiant figure dans la sortie standard de la tâche.
Par exemple, pour une DistCp tâche S3 avec l'ID4b1c37bb-91af-4391-aaf8-46a6067085a6
, vous pouvez vous connecter au nœud principal du cluster et exécuter la commande suivante pour afficher les fichiers de sortie associés à la tâche.
hdfs dfs -ls /tmp/4b1c37bb-91af-4391-aaf8-46a6067085a6/output
La commande renvoie une liste de fichiers similaires à la liste suivante :
Found 8 items
-rw-r‑‑r‑‑ 1 hadoop hadoop 0 2018-12-10 06:03 /tmp/4b1c37bb-91af-4391-aaf8-46a6067085a6/output/_SUCCESS
-rw-r‑‑r‑‑ 1 hadoop hadoop 0 2018-12-10 06:02 /tmp/4b1c37bb-91af-4391-aaf8-46a6067085a6/output/part-r-00000
-rw-r‑‑r‑‑ 1 hadoop hadoop 0 2018-12-10 06:02 /tmp/4b1c37bb-91af-4391-aaf8-46a6067085a6/output/part-r-00001
-rw-r‑‑r‑‑ 1 hadoop hadoop 0 2018-12-10 06:02 /tmp/4b1c37bb-91af-4391-aaf8-46a6067085a6/output/part-r-00002
-rw-r‑‑r‑‑ 1 hadoop hadoop 0 2018-12-10 06:03 /tmp/4b1c37bb-91af-4391-aaf8-46a6067085a6/output/part-r-00003
-rw-r‑‑r‑‑ 1 hadoop hadoop 0 2018-12-10 06:03 /tmp/4b1c37bb-91af-4391-aaf8-46a6067085a6/output/part-r-00004
-rw-r‑‑r‑‑ 1 hadoop hadoop 0 2018-12-10 06:03 /tmp/4b1c37bb-91af-4391-aaf8-46a6067085a6/output/part-r-00005
-rw-r‑‑r‑‑ 1 hadoop hadoop 0 2018-12-10 06:03 /tmp/4b1c37bb-91af-4391-aaf8-46a6067085a6/output/part-r-00006
Vous pouvez ensuite exécuter la commande suivante pour supprimer le répertoire et l'ensemble du contenu.
hdfs dfs rm -rf /tmp/4b1c37bb-91af-4391-aaf8-46a6067085a6