COPYdepuis Amazon EMR - Amazon Redshift

Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.

COPYdepuis Amazon EMR

Vous pouvez utiliser cette COPY commande pour charger des données en parallèle à partir d'un EMR cluster Amazon configuré pour écrire des fichiers texte dans le système de fichiers distribué Hadoop (HDFS) du cluster sous forme de fichiers à largeur fixe, de fichiers délimités par des caractères, de fichiers, de fichiers au format ou de fichiers CSV Avro. JSON

Syntaxe

FROM 'emr://emr_cluster_id/hdfs_filepath' authorization [ optional_parameters ]

Exemple

L'exemple suivant charge des données depuis un EMR cluster Amazon.

copy sales from 'emr://j-SAMPLE2B500FC/myoutput/part-*' iam_role 'arn:aws:iam::0123456789012:role/MyRedshiftRole';

Paramètres

FROM

Source des données à charger.

’emr://emr_cluster_id/hdfs_file_path

L'identifiant unique du EMR cluster Amazon et le chemin du HDFS fichier qui référence les fichiers de données pour la COPY commande. Les noms HDFS des fichiers de données ne doivent pas contenir les caractères génériques astérisque (*) et point d'interrogation (?).

Note

Le EMR cluster Amazon doit continuer à fonctionner jusqu'à la fin de COPY l'opération. Si l'un des fichiers de HDFS données est modifié ou supprimé avant la fin de l'COPYopération, il se peut que vous obteniez des résultats inattendus ou que l'COPYopération échoue.

Vous pouvez utiliser les caractères génériques astérisque (*) et point d’interrogation (?) dans le cadre de l’argument hdfs_file_path pour spécifier le chargement de plusieurs fichiers. Par exemple, 'emr://j-SAMPLE2B500FC/myoutput/part*' identifie les fichiers part-0000, part-0001, et ainsi de suite. Si le chemin d’accès ne contient pas de caractères génériques, il est traité comme un littéral de chaîne. Si vous spécifiez uniquement un nom de dossier, COPY tente de charger tous les fichiers du dossier.

Important

Si vous utilisez des caractères génériques ou uniquement le nom du dossier, vérifiez qu’aucun fichier indésirable ne sera chargé. Par exemple, certains processus peuvent écrire un fichier journal sur le dossier de sortie.

Pour plus d'informations, consultez Chargement de données depuis Amazon EMR.

authorization

La COPY commande a besoin d'une autorisation pour accéder aux données d'un autre AWS ressource, notamment dans Amazon S3, AmazonEMR, Amazon DynamoDB et Amazon. EC2 Vous pouvez fournir cette autorisation en faisant référence à un AWS Identity and Access Management (IAM) rôle attaché à votre cluster (contrôle d'accès basé sur les rôles) ou en fournissant les informations d'identification d'accès à un utilisateur (contrôle d'accès basé sur des clés). Pour une sécurité et une flexibilité accrues, nous vous recommandons d'utiliser un contrôle d'accès IAM basé sur les rôles. Pour de plus amples informations, veuillez consulter Paramètres d’autorisation.

Paramètres pris en charge

Vous pouvez éventuellement spécifier les paramètres suivants à COPY partir d'Amazon EMR :

Paramètres non pris en charge

Vous ne pouvez pas utiliser les paramètres suivants COPY depuis Amazon EMR :

  • ENCRYPTED

  • MANIFEST

  • REGION

  • READRATIO

  • SSH