COPYda Amazon EMR - Amazon Redshift

Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.

COPYda Amazon EMR

Puoi utilizzare il COPY comando per caricare dati in parallelo da un EMR cluster Amazon configurato per scrivere file di testo nell'Hadoop Distributed File System (HDFS) del cluster sotto forma di file a larghezza fissa, file delimitati da caratteri, file, file formattati o file Avro. CSV JSON

Sintassi

FROM 'emr://emr_cluster_id/hdfs_filepath' authorization [ optional_parameters ]

Esempio

L'esempio seguente carica i dati da un EMR cluster Amazon.

copy sales from 'emr://j-SAMPLE2B500FC/myoutput/part-*' iam_role 'arn:aws:iam::0123456789012:role/MyRedshiftRole';

Parametri

FROM

L'origine dei dati da caricare.

'emr://emr_cluster_id/hdfs_file_path'

L'identificatore univoco per il EMR cluster Amazon e il percorso del HDFS file che fa riferimento ai file di dati per il COPY comando. I nomi HDFS dei file di dati non devono contenere i caratteri jolly asterisco (*) e punto interrogativo (?).

Nota

Il EMR cluster Amazon deve continuare a funzionare fino al completamento COPY dell'operazione. Se uno qualsiasi dei file di HDFS dati viene modificato o eliminato prima del completamento dell'COPYoperazione, è possibile che si ottengano risultati imprevisti o che l'COPYoperazione non riesca.

È possibile utilizzare i caratteri jolly asterisco (*) e punto interrogativo (?) come parte dell'argomento hdfs_file_path del nome file. Ad esempio 'emr://j-SAMPLE2B500FC/myoutput/part*' identifica i file part-0000, part-0001 e così via. Se il percorso del file non contiene caratteri jolly, viene trattato come una stringa letterale. Se si specifica solo il nome di una cartella, COPY tenta di caricare tutti i file nella cartella.

Importante

Se utilizzi caratteri jolly o solo il nome della cartella, verifica che non vengano caricati file indesiderati. Ad esempio, alcuni processi potrebbero scrivere un file di log nella cartella di output.

Per ulteriori informazioni, consulta Caricamento di dati da Amazon EMR.

authorization

Il COPY comando richiede l'autorizzazione per accedere ai dati in un'altra AWS risorsa, tra cui Amazon S3, AmazonEMR, Amazon DynamoDB e Amazon. EC2 È possibile fornire tale autorizzazione facendo riferimento a un ruolo AWS Identity and Access Management (IAM) collegato al cluster (controllo degli accessi basato sui ruoli) o fornendo le credenziali di accesso per un utente (controllo degli accessi basato su chiavi). Per una maggiore sicurezza e flessibilità, consigliamo di utilizzare il controllo degli accessi basato sui ruoli. IAM Per ulteriori informazioni, consulta Parametri di autorizzazione.

Parametri supportati

Facoltativamente, puoi specificare i seguenti parametri con COPY AmazonEMR:

Parametri non supportati

Non puoi utilizzare i seguenti parametri con COPY AmazonEMR:

  • ENCRYPTED

  • MANIFEST

  • REGION

  • READRATIO

  • SSH