Options de format pour les entrées et sorties dans AWS Glue pour Spark - AWS Glue

Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.

Options de format pour les entrées et sorties dans AWS Glue pour Spark

Ces pages fournissent des informations sur la prise en charge des fonctionnalités et les paramètres de configuration pour les formats de données pris en charge par AWS Glue pour Spark. Reportez-vous à la section suivante pour une description de l'utilisation et de l'applicabilité de ces informations.

Support des fonctionnalités dans tous les formats de données dans AWS Glue

Chaque format de données peut prendre en charge différents AWS Caractéristiques Glue Les fonctionnalités communes suivantes peuvent être prises en charge ou non en fonction de votre type de format. Reportez-vous à la documentation de votre format de données pour comprendre comment tirer parti de nos caractéristiques pour répondre à vos besoins.

Lire AWS Glue peut reconnaître et interpréter ce format de données sans ressources supplémentaires, telles que des connecteurs.
Écrire AWS Glue peut écrire des données dans ce format sans ressources supplémentaires. Vous pouvez inclure des bibliothèques tierces dans votre travail et utiliser les fonctions standard d'Apache Spark pour écrire des données, comme vous le feriez dans d'autres environnements Spark. Pour plus d'informations sur ces bibliothèques, consultez Utilisation des bibliothèques Python avec AWS Glue.
Lecture en streaming AWS Glue peut reconnaître et interpréter ce format de données à partir d'un flux de messages Apache Kafka, flux géré par Amazon pour Apache Kafka ou Amazon Kinesis. Nous nous attendons à ce que les flux présentent les données dans un format cohérent, afin qu'elles soient lues comme DataFrames.
Groupement des petits fichiers AWS Glue peut regrouper des fichiers pour envoyer des tâches par lots à chaque nœud lors de l'exécution AWS Glue Cela peut améliorer considérablement les performances pour les charges de travail impliquant de grandes quantités de petits fichiers. Pour de plus amples informations, veuillez consulter Lecture des fichiers en entrée dans des groupes de plus grande taille.
Signets de tâche AWS Glue peut suivre la progression des transformations effectuant le même travail sur le même jeu de données lors de plusieurs exécutions de tâches à l'aide de signets de tâches. Cela peut améliorer les performances des charges de travail impliquant des jeux de données pour lesquels le travail doit uniquement être effectué sur les nouvelles données depuis la dernière exécution de la tâche. Pour de plus amples informations, veuillez consulter Suivi des données traitées à l'aide de signets de tâche.

Paramètres utilisés pour interagir avec les formats de données dans AWS Glue

Certains AWS types de connexions à Glue supportent format les types mutiples, vous obligeant à spécifier des informations sur le format de vos données à l'aide d'un format_options objet lorsque vous utilisez des méthodes telles que GlueContext.write_dynamic_frame.from_options.

Certains types de connexion ne nécessitent pasformat_options. Par exemple, dans le cadre d'une utilisation normale, une connexion JDBC à une base de données relationnelle récupère les données dans un format de données tabulaire cohérent. Par conséquent, la lecture à partir d'une connexion JDBC ne nécessiterait pas format_options.

Certaines méthodes pour lire et écrire des données dans de la colle ne nécessitent pasformat_options. Par exemple, en utilisant GlueContext.create_dynamic_frame.from_catalog avec AWS Des robots à Glue Les robots d'exploration déterminent la forme de vos données. Lorsque vous utilisez des robots d'exploration, un AWS Le classificateur de type Glue examinera vos données pour prendre des décisions intelligentes quant à la manière de représenter votre format de données. Il stockera ensuite une représentation de vos données dans le AWS Le catalogue de données Glue, qui peut être utilisé dans un AWS Glue le script ETL pour récupérer vos données avec le GlueContext.create_dynamic_frame.from_catalog Méthode. Les robots d'exploration éliminent la nécessité de spécifier manuellement des informations sur le format de vos données.

Pour les tâches qui accèdent à des tables régies AWS Lake Formation, AWS Glue prend en charge la lecture et l'écriture de tous les formats pris en charge par les tableaux régis par Lake Formation. Pour obtenir la liste actuelle des formats pris en charge pour les tables régies AWS Lake Formation, voir Restrictions pour les tables régies dans le Guide du développeur AWS Lake Formation.

Note

Pour écrire Apache Parquet, AWS Glue ETL prend uniquement en charge l'écriture dans une table régie en spécifiant une option pour un type de dispositif d'écriture Parquet personnalisé optimisé pour les cadres dynamiques. Lorsque vous écrivez sur une table régie avec le format parquet, vous devez ajouter la clé useGlueParquetWriter avec une valeur de true dans les paramètres de la table.

Référence de configuration partagée

Vous pouvez utiliser les valeurs format_options suivantes avec tout type de format.

  • attachFilename : une chaîne au format approprié à utiliser comme nom de colonne. Si vous fournissez cette option, le nom du fichier source de l'enregistrement sera ajouté à l'enregistrement. La valeur du paramètre sera utilisée comme nom de colonne.

  • attachTimestamp : une chaîne au format approprié à utiliser comme nom de colonne. Si vous fournissez cette option, l'heure de la modification du fichier source de l'enregistrement sera ajoutée à l'enregistrement. La valeur du paramètre sera utilisée comme nom de colonne.