Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.
Options de format pour les entrées et sorties dans AWS Glue pour Spark
Ces pages fournissent des informations sur la prise en charge des fonctionnalités et les paramètres de configuration pour les formats de données pris en charge par AWS Glue pour Spark. Reportez-vous à la section suivante pour une description de l'utilisation et de l'applicabilité de ces informations.
Support des fonctionnalités dans tous les formats de données dans AWS Glue
Chaque format de données peut prendre en charge différents AWS Caractéristiques Glue Les fonctionnalités communes suivantes peuvent être prises en charge ou non en fonction de votre type de format. Reportez-vous à la documentation de votre format de données pour comprendre comment tirer parti de nos caractéristiques pour répondre à vos besoins.
Lire | AWS Glue peut reconnaître et interpréter ce format de données sans ressources supplémentaires, telles que des connecteurs. |
Écrire | AWS Glue peut écrire des données dans ce format sans ressources supplémentaires. Vous pouvez inclure des bibliothèques tierces dans votre travail et utiliser les fonctions standard d'Apache Spark pour écrire des données, comme vous le feriez dans d'autres environnements Spark. Pour plus d'informations sur ces bibliothèques, consultez Utilisation des bibliothèques Python avec AWS Glue. |
Lecture en streaming | AWS Glue peut reconnaître et interpréter ce format de données à partir d'un flux de messages Apache Kafka, flux géré par Amazon pour Apache Kafka ou Amazon Kinesis. Nous nous attendons à ce que les flux présentent les données dans un format cohérent, afin qu'elles soient lues comme DataFrames . |
Groupement des petits fichiers | AWS Glue peut regrouper des fichiers pour envoyer des tâches par lots à chaque nœud lors de l'exécution AWS Glue Cela peut améliorer considérablement les performances pour les charges de travail impliquant de grandes quantités de petits fichiers. Pour de plus amples informations, veuillez consulter Lecture des fichiers en entrée dans des groupes de plus grande taille. |
Signets de tâche | AWS Glue peut suivre la progression des transformations effectuant le même travail sur le même jeu de données lors de plusieurs exécutions de tâches à l'aide de signets de tâches. Cela peut améliorer les performances des charges de travail impliquant des jeux de données pour lesquels le travail doit uniquement être effectué sur les nouvelles données depuis la dernière exécution de la tâche. Pour de plus amples informations, veuillez consulter Suivi des données traitées à l'aide de signets de tâche. |
Paramètres utilisés pour interagir avec les formats de données dans AWS Glue
Certains AWS types de connexions à Glue supportent format
les types mutiples, vous obligeant à spécifier des informations sur le format de vos données à l'aide d'un format_options
objet lorsque vous utilisez des méthodes telles que GlueContext.write_dynamic_frame.from_options
.
-
s3
– Pour plus d'informations, veuillez consulter les types et options de connexion pour ETL dans AWSGlue :Paramètres de connexion S3. Vous pouvez également afficher la documentation des méthodes facilitant ce type de connexion :create_dynamic_frame_from_options et write_dynamic_frame_from_options en Python et dans les méthodes Scala correspondantes getSourceWithFormat def et getSinkWithFormat def. -
kinesis
– Pour plus d'informations, veuillez consulter les types et options de connexion pour ETL dans AWSGlue :Paramètres de connexion Kinesis. Vous pouvez également afficher la documentation de la méthode facilitant ce type de connexion :create_data_frame_from_options et la méthode Scala correspondante def createDataFrame FromOptions. -
kafka
– Pour plus d'informations, veuillez consulter les types et options de connexion pour ETL dans AWSGlue :Paramètres de connexion de Kafka. Vous pouvez également afficher la documentation de la méthode facilitant ce type de connexion :create_data_frame_from_options et la méthode Scala correspondante def createDataFrame FromOptions.
Certains types de connexion ne nécessitent pasformat_options
. Par exemple, dans le cadre d'une utilisation normale, une connexion JDBC à une base de données relationnelle récupère les données dans un format de données tabulaire cohérent. Par conséquent, la lecture à partir d'une connexion JDBC ne nécessiterait pas format_options
.
Certaines méthodes pour lire et écrire des données dans de la colle ne nécessitent pasformat_options
. Par exemple, en utilisant GlueContext.create_dynamic_frame.from_catalog
avec AWS Des robots à Glue Les robots d'exploration déterminent la forme de vos données. Lorsque vous utilisez des robots d'exploration, un AWS Le classificateur de type Glue examinera vos données pour prendre des décisions intelligentes quant à la manière de représenter votre format de données. Il stockera ensuite une représentation de vos données dans le AWS Le catalogue de données Glue, qui peut être utilisé dans un AWS Glue le script ETL pour récupérer vos données avec le GlueContext.create_dynamic_frame.from_catalog
Méthode. Les robots d'exploration éliminent la nécessité de spécifier manuellement des informations sur le format de vos données.
Pour les tâches qui accèdent à des tables régies AWS Lake Formation, AWS Glue prend en charge la lecture et l'écriture de tous les formats pris en charge par les tableaux régis par Lake Formation. Pour obtenir la liste actuelle des formats pris en charge pour les tables régies AWS Lake Formation, voir Restrictions pour les tables régies dans le Guide du développeur AWS Lake Formation.
Note
Pour écrire Apache Parquet, AWS Glue ETL prend uniquement en charge l'écriture dans une table régie en spécifiant une option pour un type de dispositif d'écriture Parquet personnalisé optimisé pour les cadres dynamiques. Lorsque vous écrivez sur une table régie avec le format parquet
, vous devez ajouter la clé useGlueParquetWriter
avec une valeur de true
dans les paramètres de la table.
Rubriques
- Utilisation du format CSV dans AWS Glue
- Utilisation du format Parquet dans AWS Glue
- Utilisation du format XML dans AWS Glue
- Utilisation du format Avro dans AWS Glue
- Utilisation du format grokLog dans AWS Glue
- Utilisation du format Ion dans AWS Glue
- Utilisation du format JSON dans AWS Glue
- Utilisation du format ORC dans AWS Glue
- Utilisation de cadres de lac de données avec des tâches AWS Glue ETL
- Référence de configuration partagée
Référence de configuration partagée
Vous pouvez utiliser les valeurs format_options
suivantes avec tout type de format.
-
attachFilename
: une chaîne au format approprié à utiliser comme nom de colonne. Si vous fournissez cette option, le nom du fichier source de l'enregistrement sera ajouté à l'enregistrement. La valeur du paramètre sera utilisée comme nom de colonne. -
attachTimestamp
: une chaîne au format approprié à utiliser comme nom de colonne. Si vous fournissez cette option, l'heure de la modification du fichier source de l'enregistrement sera ajoutée à l'enregistrement. La valeur du paramètre sera utilisée comme nom de colonne.