Connettori e utility
Amazon EMR fornisce diversi connettori e utility per accedere ad altri servizi AWS come origini dati. In genere, puoi accedere ai dati in questi servizi dall'interno di un programma. Ad esempio, puoi specificare un flusso Kinesis in una query Hive, in uno script Pig o in un'applicazione MapReduce e quindi operare su tali dati.
Argomenti
Eliminazione dopo attività S3DistCp non riuscite
Se S3DistCp non riesce a copiare alcuni o tutti i file specificati, la fase del cluster o del comando ha esito negativo e restituisce un codice di errore diverso da zero. In questo caso, S3DistCp non elimina i file parzialmente copiati. È necessario eliminarli manualmente.
I file parzialmente copiati vengono salvati nella directory HDFS tmp
nelle sottodirectory con l'identificatore univoco dell'attività S3DistCp. È possibile trovare questo ID nell'output standard dell'attività.
Ad esempio, per un'attività S3DistCp con ID 4b1c37bb-91af-4391-aaf8-46a6067085a6
, è possibile connettersi al nodo master del cluster ed eseguire il comando seguente per visualizzare i file di output associati all'attività.
hdfs dfs -ls /tmp/4b1c37bb-91af-4391-aaf8-46a6067085a6/output
Il comando restituisce un elenco di file simile al seguente:
Found 8 items -rw-r‑‑r‑‑ 1 hadoop hadoop 0 2018-12-10 06:03 /tmp/4b1c37bb-91af-4391-aaf8-46a6067085a6/output/_SUCCESS -rw-r‑‑r‑‑ 1 hadoop hadoop 0 2018-12-10 06:02 /tmp/4b1c37bb-91af-4391-aaf8-46a6067085a6/output/part-r-00000 -rw-r‑‑r‑‑ 1 hadoop hadoop 0 2018-12-10 06:02 /tmp/4b1c37bb-91af-4391-aaf8-46a6067085a6/output/part-r-00001 -rw-r‑‑r‑‑ 1 hadoop hadoop 0 2018-12-10 06:02 /tmp/4b1c37bb-91af-4391-aaf8-46a6067085a6/output/part-r-00002 -rw-r‑‑r‑‑ 1 hadoop hadoop 0 2018-12-10 06:03 /tmp/4b1c37bb-91af-4391-aaf8-46a6067085a6/output/part-r-00003 -rw-r‑‑r‑‑ 1 hadoop hadoop 0 2018-12-10 06:03 /tmp/4b1c37bb-91af-4391-aaf8-46a6067085a6/output/part-r-00004 -rw-r‑‑r‑‑ 1 hadoop hadoop 0 2018-12-10 06:03 /tmp/4b1c37bb-91af-4391-aaf8-46a6067085a6/output/part-r-00005 -rw-r‑‑r‑‑ 1 hadoop hadoop 0 2018-12-10 06:03 /tmp/4b1c37bb-91af-4391-aaf8-46a6067085a6/output/part-r-00006
È quindi possibile eseguire il seguente comando per eliminare la directory e tutti i relativi contenuti.
hdfs dfs rm -rf /tmp/4b1c37bb-91af-4391-aaf8-46a6067085a6