Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.
COPY da Amazon EMR
È possibile utilizzare il comando COPY per caricare dati in parallelo da un cluster Amazon EMR configurato per scrivere file di testo nel Hadoop Distributed File System (HDFS) del cluster sotto forma di file a larghezza fissa, delimitati da caratteri, CSV, formattati JSON o Avro.
Sintassi
FROM 'emr://emr_cluster_id/hdfs_filepath' authorization [ optional_parameters ]
Esempio
Nell'esempio seguente i dati vengono caricati da un cluster Amazon EMR.
copy sales
from 'emr://j-SAMPLE2B500FC/myoutput/part-*'
iam_role 'arn:aws:iam::0123456789012:role/MyRedshiftRole';
Parametri
- FROM
-
L'origine dei dati da caricare.
- 'emr://emr_cluster_id/hdfs_file_path'
-
L'identificatore univoco per il cluster Amazon EMR e il percorso del file HDFS che fa riferimento ai file di dati per il comando COPY. I nomi dei file di dati HDFS non devono contenere i caratteri jolly asterisco (*) e punto interrogativo (?).
Nota
Il cluster Amazon EMR deve continuare a funzionare fino al completamento dell'operazione COPY. Se uno qualsiasi dei file di dati HDFS viene modificato o cancellato prima del completamento dell'operazione COPY, si potrebbero ottenere risultati imprevisti o l'operazione COPY potrebbe fallire.
È possibile utilizzare i caratteri jolly asterisco (*) e punto interrogativo (?) come parte dell'argomento hdfs_file_path del nome file. Ad esempio
'emr://j-SAMPLE2B500FC/myoutput/part*'
identifica i filepart-0000
,part-0001
e così via. Se il percorso del file non contiene caratteri jolly, viene trattato come una stringa letterale. Se specifichi solo il nome di una cartella, COPY tenta di caricare tutti i file nella cartella.Importante
Se utilizzi caratteri jolly o solo il nome della cartella, verifica che non vengano caricati file indesiderati. Ad esempio, alcuni processi potrebbero scrivere un file di log nella cartella di output.
Per ulteriori informazioni, consulta Caricamento di dati da Amazon EMR.
- authorization
-
Il comando COPY richiede l'autorizzazione per accedere ai dati in un'altra AWS risorsa, tra cui Amazon S3, Amazon EMR, Amazon DynamoDB e Amazon. EC2 È possibile fornire tale autorizzazione facendo riferimento a un ruolo AWS Identity and Access Management (IAM) collegato al cluster (controllo degli accessi basato sui ruoli) o fornendo le credenziali di accesso per un utente (controllo degli accessi basato su chiavi). Per una maggiore sicurezza e flessibilità, consigliamo di utilizzare il controllo degli accessi basato sui ruoli IAM. Per ulteriori informazioni, consulta Parametri di autorizzazione.
Parametri supportati
Facoltativamente è possibile specificare i seguenti parametri con COPY da Amazon EMR:
Parametri non supportati
Non è possibile utilizzare i seguenti parametri con COPY da Amazon EMR:
-
ENCRYPTED
-
MANIFEST
-
REGION
-
READRATIO
-
SSH