Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.
Connettori e utility
Amazon EMR fornisce diversi connettori e utilità per accedere ad altri AWS servizi come fonti di dati. In genere, puoi accedere ai dati in questi servizi dall'interno di un programma. Ad esempio, puoi specificare un flusso Kinesis in una query Hive, uno script Pig o MapReduce un'applicazione e quindi operare su tali dati.
Argomenti
Pulizia dopo lavori S3 non riusciti DistCp
Se S3 DistCp non è in grado di copiare alcuni o tutti i file specificati, il comando o la fase del cluster fallisce e restituisce un codice di errore diverso da zero. In questo caso, S3 non DistCp pulisce i file parzialmente copiati. È necessario eliminarli manualmente.
I file parzialmente copiati vengono salvati HDFS tmp
nella directory in sottodirectory con l'identificatore univoco del lavoro S3. DistCp È possibile trovare questo ID nell'output standard dell'attività.
Ad esempio, per un DistCp lavoro S3 con l'ID4b1c37bb-91af-4391-aaf8-46a6067085a6
, è possibile connettersi al nodo principale del cluster ed eseguire il comando seguente per visualizzare i file di output associati al lavoro.
hdfs dfs -ls /tmp/4b1c37bb-91af-4391-aaf8-46a6067085a6/output
Il comando restituisce un elenco di file simile al seguente:
Found 8 items -rw-r‑‑r‑‑ 1 hadoop hadoop 0 2018-12-10 06:03 /tmp/4b1c37bb-91af-4391-aaf8-46a6067085a6/output/_SUCCESS -rw-r‑‑r‑‑ 1 hadoop hadoop 0 2018-12-10 06:02 /tmp/4b1c37bb-91af-4391-aaf8-46a6067085a6/output/part-r-00000 -rw-r‑‑r‑‑ 1 hadoop hadoop 0 2018-12-10 06:02 /tmp/4b1c37bb-91af-4391-aaf8-46a6067085a6/output/part-r-00001 -rw-r‑‑r‑‑ 1 hadoop hadoop 0 2018-12-10 06:02 /tmp/4b1c37bb-91af-4391-aaf8-46a6067085a6/output/part-r-00002 -rw-r‑‑r‑‑ 1 hadoop hadoop 0 2018-12-10 06:03 /tmp/4b1c37bb-91af-4391-aaf8-46a6067085a6/output/part-r-00003 -rw-r‑‑r‑‑ 1 hadoop hadoop 0 2018-12-10 06:03 /tmp/4b1c37bb-91af-4391-aaf8-46a6067085a6/output/part-r-00004 -rw-r‑‑r‑‑ 1 hadoop hadoop 0 2018-12-10 06:03 /tmp/4b1c37bb-91af-4391-aaf8-46a6067085a6/output/part-r-00005 -rw-r‑‑r‑‑ 1 hadoop hadoop 0 2018-12-10 06:03 /tmp/4b1c37bb-91af-4391-aaf8-46a6067085a6/output/part-r-00006
È quindi possibile eseguire il seguente comando per eliminare la directory e tutti i relativi contenuti.
hdfs dfs rm -rf /tmp/4b1c37bb-91af-4391-aaf8-46a6067085a6