Historique de la documentation pour AWS Glue - AWS Glue

Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.

Historique de la documentation pour AWS Glue

ModificationDescriptionDate

La détection des anomalies et les règles dynamiques sont désormais disponibles pour tous

AWS Glue Data Quality utilise un algorithme d'apprentissage automatique pour tirer des leçons des tendances passées, puis prévoir les valeurs futures afin de détecter les anomalies. Les règles dynamiques vous permettent de fournir des seuils dynamiques. Pour plus d'informations, consultez Optimisation des performances des requêtes pour les tables Iceberg.

7 août 2024

La génération de statistiques de colonnes pour les tables Iceberg est désormais généralement disponible

AWS Glue prend en charge le calcul et la mise à jour du nombre de valeurs distinctes (NDVs) pour chaque colonne des tables Iceberg. Pour plus d'informations, consultez la section Détection des anomalies dans la section Qualité AWS Glue des données et Règles dynamiques.

9 juillet 2024

Support pour les profils AWS Glue d'utilisation

Les administrateurs peuvent créer des profils AWS Glue d'utilisation pour différentes catégories d'utilisateurs au sein du compte, telles que les développeurs, les testeurs et les équipes produit. Cette flexibilité permet aux administrateurs d'appliquer différents contrôles d'utilisation et de coûts pour chaque catégorie d'utilisateurs. Pour plus d'informations, consultez la section Configuration des profils AWS Glue d'utilisation.

18 juin 2024

Support pour un connecteur Salesforce AWS Glue pour Spark

Ajout d'informations sur un nouveau AWS Glue connecteur pour Salesforce. Cette fonctionnalité vous permet d'utiliser Spark AWS Glue pour lire et écrire dans Salesforce dans les versions AWS Glue 4.0 et ultérieures. Pour plus d'informations, consultez la section Connexion à Salesforce.

22 mai 2024

Intégration des données Amazon Q dans AWS Glue (GA)

L'intégration de données dans Amazon Q AWS Glue est une nouvelle fonctionnalité d'IA générative AWS Glue qui permet aux ingénieurs de données et aux ETL développeurs de créer des tâches d'intégration de données en langage naturel. Les ingénieurs et les développeurs peuvent demander à Q de créer des tâches, de résoudre des problèmes et de répondre à des questions concernant AWS Glue l'intégration des données. Pour plus d’informations, consultez la rubrique Intégration des données Amazon Q dans AWS Glue. Cette fonctionnalité inclut une mise à jour des politiques AwsGlueSessionUserRestrictedPolicyAwsGlueSessionUserRestrictedNotebookServiceRole, et AwsGlueSessionUserRestrictedServiceRole AWS gérées. Pour plus d'informations, voir les AWS Glue mises à jour des politiques AWS gérées.

30 avril 2024

Intégration des données Amazon Q dans AWS Glue (version préliminaire)

L'intégration de données dans Amazon Q AWS Glue est une nouvelle fonctionnalité d'IA générative AWS Glue qui permet aux ingénieurs de données et aux ETL développeurs de créer des tâches d'intégration de données en langage naturel. Les ingénieurs et les développeurs peuvent demander à Q de créer des tâches, de résoudre des problèmes et de répondre à des questions concernant AWS Glue l'intégration des données. Pour plus d’informations, consultez la rubrique Intégration des données Amazon Q dans AWS Glue. Cette fonctionnalité inclut une mise à jour de la politique AwsGlueSessionUserRestrictedNotebookPolicy AWS gérée. Pour plus d'informations, voir les AWS Glue mises à jour des politiques AWS gérées.

30 janvier 2024

Mise à jour de la documentation pour le AWS Glue streaming

Ajout d'un nouveau chapitre avec du contenu nouveau et réorganisé pour le AWS Glue streaming. Ce contenu décrit le fonctionnement du streaming AWS Glue, les caractéristiques du traitement des données en temps réel et la manière de surveiller vos tâches de streaming. Pour plus d’informations, veuillez consulter AWS Glue Streaming.

27 décembre 2023

Prise en charge de la détection détaillée des données sensibles

La transformation Détecter les données sensibles permet de détecter, masquer ou supprimer des entités que vous définissez ou sont prédéfinies par AWS Glue. Les actions détaillées vous permettent en outre d'appliquer une action spécifique par entité. Pour plus d’informations, consultez la rubrique Utilisation d’une détection détaillée des données sensibles.

26 novembre 2023

Support pour le suivi des tâches à l'aide de métriques AWS Glue d'observabilité

Utilisez les métriques d'observabilité AWS Glue pour générer des informations sur ce qui se passe au sein de votre AWS Glue pour les tâches Apache Spark afin d'améliorer le triage et l'analyse des problèmes. Pour plus d’informations, consultez la rubrique Surveillance à l’aide des métriques d’observabilité AWS Glue.

26 novembre 2023

Support pour la détection des anomalies dans le domaine de la qualité AWS Glue des données

La détection d’anomalies dans Qualité des données d’AWS Glue utilise des algorithmes de machine learning (ML) sur des statistiques de données au fil du temps pour détecter des modèles anormaux et des problèmes cachés de qualité de données, difficiles à détecter via des règles. Pour plus d’informations, consultez la rubrique Détection d’anomalies dans Qualité des données d’AWS Glue.

26 novembre 2023

Mise à jour du comportement par défaut de journalisation de l’interface utilisateur Spark

Les tâches Spark générant des journaux de l'interface utilisateur Spark seront désormais écrites avec un modèle de nom de fichier différent pour prendre en charge l'interface utilisateur Spark dans la AWS Glue console. Cela ne modifie pas le comportement du CloudWatch journal. Vous pouvez revenir à l’ancien comportement en mettant à jour la configuration de votre tâche. Pour plus d’informations, consultez la rubrique Surveillance des tâches à l’aide de l’interface web d’Apache Spark.

17 novembre 2023

Support pour les nouvelles sources de données dans AWS Glue Spark

Les connexions à Amazon OpenSearch Service, Azure, Azure Cosmos for No SQLSQL, SAP HANA Teradata Vantage et Vertica sont désormais prises en charge de manière native au sein de l'application. AWS Glue En outre, les connexions à ces sources de données, ainsi qu'à MongoDB, peuvent désormais être utilisées dans l'éditeur visuel de AWS Glue Studio. Pour plus d'informations, consultez Types de connexion et options d'entrée pour ETL Spark AWS Glue pour plus d'informations sur AWS Glue le support de Spark et Ajout d'une AWS Glue connexion pour des informations sur l'utilisation dans l'éditeur visuel AWS Glue Studio.

17 novembre 2023

Prise en charge de la génération de statistiques de colonne

Vous pouvez calculer des statistiques au niveau des colonnes pour AWS Glue Data Catalog des tables dans des formats de données tels que Parquet,ORC,JSON,ION,CSV, et XML sans configurer de pipelines de données supplémentaires. Pour plus d’informations, consultez Utilisation des statistiques de colonne.

16 novembre 2023

Prise en charge du compactage des données des tables Iceberg

Pour améliorer les performances de lecture des services AWS d'analyse tels qu'Amazon Athena et AmazonEMR, ainsi que pour améliorer les AWS Glue ETL tâches, Data Catalog propose un compactage géré (un processus qui compacte de petits objets Amazon S3 en objets plus grands) pour les tables Iceberg dans Data Catalog. Pour plus d’informations, consultez Optimisation des tables Iceberg.

13 novembre 2023

Mise à jour du comportement d'attente lors de l'exécution des tâches

Les exécutions de tâches standard du shell Spark et Python seront désormais transférées vers WAITING dans certaines situations, au lieu de passer immédiatement à FAILED. Pour plus d’informations, consultez la rubrique États d’exécution des tâches AWS Glue.

8 novembre 2023

Guide de l'utilisateur AWS Glue Studio consolidé dans le guide du développeur AWS Glue

Le guide de l'utilisateur AWS Glue Studio a été transféré dans le guide du développeur afin de créer un guide de l'utilisateur unifié unique pour AWS Glue Studio, la console AWS Glue et l'accès AWS Glue Studio par programmation.

25 octobre 2023

Mise à jour de la politique AWSGlueServiceNotebookRole AWS gérée

Ajout d'informations concernant une mise à jour mineure de la politique AWSGlueServiceNotebookRole AWS gérée. Pour plus d'informations, consultez la section AWS GlueMises à jour des politiques AWS gérées.

9 octobre 2023

AWS Glue Studio prend en charge cinq nouvelles transformations intégrées

AWS Glue Studioprend en charge les cinq nouvelles transformations intégrées suivantes : Record matching, Remove null rows, Parse JSON column, Extract JSON path et Regex Extractor. Pour plus d'informations, consultez la section Modification des nœuds de transformation de données AWS Glue gérés.

11 août 2023

Mise à jour de la politique AWSGlueServiceRole AWS gérée

Ajout d'informations concernant une mise à jour mineure de la politique AWSGlueServiceRole AWS gérée. Pour plus d'informations, consultez la section AWS GlueMises à jour des politiques AWS gérées.

4 août 2023

Prise en charge pour l'indexation de tables Apache Hudi

Ajout d'informations sur l'utilisation AWS Glue pour explorer les tables Hudi dans les compartiments Amazon S3 et sur l'enregistrement des tables Hudi dans le. AWS Glue Data Catalog Pour plus d'informations, consultez Which data stores can I crawl?, et Crawler properties.

21 juillet 2023

Mise à jour de la politique AWSGlueConsoleFullAccess AWS gérée

Ajout d'informations concernant une mise à jour mineure de la politique AWSGlueConsoleFullAccess AWS gérée. Pour plus d'informations, consultez la section AWS GlueMises à jour des politiques AWS gérées.

14 juillet 2023

Prise en charge pour l'indexation de tables Apache Iceberg

Ajout d'informations sur l'utilisation AWS Glue pour explorer les tables Iceberg dans les compartiments Amazon S3 et sur l'enregistrement des tables Iceberg dans le. AWS Glue Data Catalog Pour plus d'informations, consultez Which data stores can I crawl?, et Crawler properties.

7 juillet 2023

Support pour AWS Glue with Ray

Ajout d'informations sur AWS Glue with Ray, un nouveau moteur qui permet de sauvegarder AWS Glue des jobs. Réorganisé l'existant AWS Glue avec du contenu Spark pour lever toute ambiguïté.

30 mai 2023

Support pour la qualité AWS Glue des données (GA)

AWS Glue La qualité des données est désormais généralement disponible. AWS Glue La qualité des données vous aide à évaluer et à contrôler la qualité de vos données. Pour plus d'informations sur l'utilisation de la qualité AWS Glue des données avec le catalogue de données, consultez la section QualitéAWS Glue des données. Pour en savoir plus sur la qualité AWS Glue des données pour AWS Glue Studio, consultez la section Évaluation de la qualité des données avec AWS Glue Studio.

24 mai 2023

Prise en charge de types de travailleurs plus importants pour les tâches Apache Spark

La prise en charge est désormais disponible pour l'utilisation des types de travailleurs G.4X et G.8X pour les tâches Apache Spark. Ces types de travailleurs sont appropriés pour les tâches dont les charges de travail contiennent les transformations, les agrégations, les jointures et les requêtes les plus exigeantes. Pour plus d’informations, consultez Ajout de tâches dans AWS Glue.

8 mai 2023

Prise en charge de la création d'index de partition lors de l'indexation de tables

Ajout d'informations sur la manière dont les Crawlers prennent en charge la création d'index de partition pour les tables détectées par le Crawler. Pour plus d'informations, consultez Setting the partition index crawler configuration option.

24 avril 2023

Prise en charge des mesures d'utilisation des ressources

Ajout d'informations sur l'affichage de l'utilisation des ressources du service et la configuration des alarmes dans Amazon CloudWatch. Pour plus d'informations, consulter AWS Glue resource monitoring.

7 avril 2023

Mise à jour de la politique AWSGlueConsoleFullAccess AWS gérée

Ajout d'informations concernant une mise à jour mineure de la politique AWSGlueConsoleFullAccess AWS gérée. Pour plus d'informations, consultez la section AWS GlueMises à jour des politiques AWS gérées.

28 mars 2023

Ajout de conseils d'utilisation AWS Glue avec et AWS SDK avec des exemples

Le guide du AWS Glue développeur comporte deux nouvelles sections qui fournissent des informations pour vous aider AWS Glue à utiliser un AWS SDK. Pour plus d'informations, consultez les sections Utilisation AWS Glue avec un AWS SDK et Exemples de code pour AWS Glue l'utilisation AWS SDKs.

23 février 2023

Mise à jour de la documentation pour IAM AWS Glue

Informations réorganisées et ajoutées sur l'utilisation IAM avec AWS Glue. Pour plus d'informations, veuillez consulter la rubrique Gestion des identités et des accès pour AWS Glue.

15 février 2023

Support pour l'exécution de ETL tâches de streaming dans AWS Glue la version 4.0

Ajout d'informations sur la prise en charge de l'exécution de ETL jobs de streaming dans la version 4.0 de Glue, ainsi que de nouvelles options de connexion à un cluster Kafka ou à un cluster Amazon Managed Streaming for Apache Kafka, ainsi qu'à Amazon Kinesis Data Streams. Pour plus d'informations, consultez les sections Ajout de ETL tâches de streaming dans AWS Glue et Types de connexion et options pour ETL dans AWS Glue.

8 février 2023

Prise en charge de l'analyse des sources de données MongoDB Atlas

Ajout d'informations sur l'utilisation AWS Glue pour explorer les sources de données MongoDB Atlas. Pour plus d'informations, voir Quels magasins de données puis-je explorer ? , propriétés de connexion MongoDB et MongoDB Atlas, et Utilisation d'une connexion MongoDB ou MongoDB Atlas.

6 février 2023

Prise en charge de l'analyse des tables Delta Lake à l'aide d'un connecteur Delta Lake natif

Ajout d'informations sur l'utilisation AWS Glue pour parcourir les tables de Delta Lake à l'aide d'un connecteur Delta Lake natif. Cette fonctionnalité vous permet d'utiliser des moteurs de AWS requête pour interroger directement le journal des transactions Delta et d'utiliser des fonctionnalités telles que le voyage dans le temps et les ACID garanties, et de synchroniser les métadonnées de Delta Lake à partir des fichiers de transactions Amazon S3 dans le catalogue de données afin d'activer les autorisations de colonne sur vos requêtes dans Lake Formation. Pour plus d'informations, veuillez consulter les rubriques Comment préciser les options de configuration pour un magasin de données Delta Lake et Interrogation des tables Delta Lake.

15 décembre 2022

Support pour la qualité AWS Glue des données (version préliminaire)

Support est désormais disponible pour AWS Glue Data Quality (version préliminaire). AWS Glue La qualité des données vous permet d'évaluer et de contrôler la qualité de vos données lorsque vous utilisez la AWS Glue version 3.0. Pour plus d'informations sur l'utilisation de la qualité AWS Glue des données avec le catalogue de données, voir QualitéAWS Glue des données (version préliminaire). Pour en savoir plus sur la qualité AWS Glue des données pour AWS Glue Studio, consultez la section Évaluation de la qualité des données avec AWS Glue Studio.

30 novembre 2022

Prise en charge d'un nouveau connecteur Amazon Redshift Spark avec de nouvelles fonctionnalités et des améliorations de performances

Support est désormais disponible pour un nouveau connecteur Amazon Redshift Spark doté d'un nouveau JDBC pilote à utiliser avec des AWS Glue ETL tâches destinées à créer des applications Apache Spark qui lisent et écrivent sur des données dans Amazon Redshift dans le cadre de vos pipelines d'ingestion et de transformation des données. Pour plus d'informations, consultez la rubrique Moving data to and from Amazon Redshift (Déplacement de données vers et depuis Amazon Redshift).

29 novembre 2022

Prise en charge de AWS Glue version 4.0.

Ajout d'informations sur la prise en charge de AWS Glue version 4.0. Les fonctionnalités incluent la prise en charge native des infrastructures de lacs de données ouvertes avec Apache Hudi, Delta Lake et Apache Iceberg, ainsi que la prise en charge native du plug-in Cloud Shuffle Storage basé sur Amazon S3 (un plug-in Apache Spark) qui utilise Amazon S3 pour le brassage et une capacité de stockage élastique. Pour de plus amples informations, consultez AWS Glue Release Notes et Migrating AWS Glue jobs to AWS Glue version 4.0.

28 novembre 2022

Désormais, AWS Glue Studio propose des transformations visuelles personnalisées

Les transformations visuelles personnalisées permettent aux clients de définir, de réutiliser et de partager la ETL logique propre à l'entreprise au sein de leurs équipes. Pour plus d'informations, consultez Custom visual transforms (Transformations visuelles personnalisées).

28 novembre 2022

Support pour l'utilisation du AWS Glue crawler pour publier des métadonnées pour les magasins de JDBC données

Support est désormais disponible pour l'utilisation du AWS Glue robot d'exploration pour publier des métadonnées telles que des commentaires et des types bruts dans le catalogue de données pour les magasins de JDBC données. Pour plus d'informations, voir Paramètres définis sur les tables du catalogue de données par robot, propriétés du robot et JdbcTarget structure.

18 novembre 2022

Prise en charge de l'indexation des magasins de données Snowflake

Désormais, il est possible d'utiliser AWS Glue pour indexer les tables et les vues Snowflake et de publier les métadonnées dans le catalogue de données sous forme d'entrées de table. Pour les tables externes Snowflake dans Amazon S3, le crawler analyse également l'emplacement Amazon S3 et le type de format de fichier de la table externe et les renseigne en tant que paramètres de table. Pour plus d'informations, consultez Which data stores can I crawl? (Quels magasins de données puis-je analyser ?), les propriétés de connexion AWS Glue et les paramètres définis sur les tables du catalogue de données par un crawler.

18 novembre 2022

Prise en charge d'une meilleure gestion du brassage de vos applications Spark

Désormais, la prise en charge d'un nouveau plug-in Cloud Shuffle Storage pour Apache Spark est disponible. Pour plus d'informations, consultez AWS Glue Spark shuffle plugin with Amazon S3 et Cloud Shuffle Storage Plugin for Apache Spark.

15 novembre 2022

Ajout de la prise en charge des cibles du Catalogue de données lors de l'accélération des notifications d'événements Amazon S3 d'indexation de site web

Outre la prise en charge existante des cibles Amazon S3, la prise en charge est désormais disponible pour accélérer l'indexation de site web des cibles du Catalogue de données à l'aide des notifications d'événements Amazon S3. Pour en savoir plus, consultez Accélération des analyses à l’aide des notifications d’événements Amazon S3.

13 octobre 2022

Support permettant de spécifier le nombre maximum de tables qu'un crawler peut créer

Le support est désormais disponible pour spécifier le nombre maximum de tables que le crawler est autorisé à créer. Pour plus d'informations, consultez la rubrique Comment spécifier le nombre maximum de tables que le crawler est autorisé à créer.

6 septembre 2022

Prise en charge de Python 3.9 dans les tâches Python shell dans AWS Glue

La prise en charge est désormais disponible pour l'exécution de scripts compatibles avec Python 3.9 dans les tâches Python shell dans AWS Glue, et pour avoir choisi d'utiliser des ensembles de bibliothèques préemballés. Pour en savoir plus, consultez Tâches Python shell dans AWS Glue.

11 août 2022

Support pour exécuter des AWS Glue tâches non urgentes ou non urgentes avec des capacités inutilisées

La prise en charge est désormais disponible pour la configuration d'exécutions de tâches flexibles pour les tâches non urgentes telles que les tâches de pré-production, les tests et les chargements de données ponctuels. Pour plus d’informations, consultez Ajout de tâches dans AWS Glue.

9 août 2022

Prise en charge d'un nouveau type d'employé pour les tâches de streaming

Une prise en charge est désormais disponible pour une utilisation du type d'employé G.025X pour les tâches de streaming à faible volume. Pour plus d'informations, consultez Ajout de tâches dans AWS Glue.

14 juillet 2022

Support pour l'utilisation de Kafka SASL dans les connexions AWS Glue

Support est désormais disponible pour l'utilisation de Kafka SASL dans AWS Glue les connexions. Pour plus d'informations, consultez Propriétés de connexion Kafka AWS Glue pour l'authentification du client.

5 juillet 2022

Prise en charge du connecteur Apache Kafka pour schémas Protobuf

La prise en charge du connecteur Apache Kafka est désormais disponible pour schémas Protobuf. Pour plus d'informations, consultez Registre de schémas AWS Glue.

9 juin 2022

Prise en charge d'Auto Scaling pour les AWS Glue tâches (GA)

Ajout d'informations sur l'utilisation d'Auto Scaling pour les tâches dans AWS Glue version 3.0 pour mettre à l'échelle les ressources de calcul de façon dynamique. Pour plus d'informations, consultez Utilisation d'Auto Scaling pour AWS Glue.

14 avril 2022

Mise à jour de la documentation relative à AWS Glue pour le développement et le test des scripts de tâches AWS Glue

Réorganisation et ajout d'informations sur les méthodes de développement et de test disponibles pour AWS Glue, y compris des instructions pour le développement avec Docker. Pour plus d’informations, consultez Développer et tester les scripts de tâches AWS Glue.

14 mars 2022

Ajout de Protocol Buffers (Protobuf) en tant que format de données pris en charge pour AWS Glue Schema Registry

Ajout d'informations sur Protobuf en tant que format de données pris en charge (en plus de AVRO etJSON). Pour plus d'informations, consultez Registre de schémas AWS Glue.

25 février 2022

Prise en charge des tables rampantes Delta Lake

Ajout d'informations sur l'utilisation AWS Glue pour parcourir les tables de Delta Lake. Pour plus d'informations, consultez Comment préciser les options de configuration pour un magasin de données Delta Lake.

24 février 2022

Support pour obtenir des informations sur les AWS Glue offres d'emploi

Ajout d'informations sur l'utilisation AWS Glue des informations sur les tâches pour simplifier le débogage des tâches et l'optimisation de vos AWS Glue tâches. Pour plus d'informations, consultez la section Surveillance avec les informations des jobs AWS Glue.

8 février 2022

Support pour l'exploration des tables du catalogue de données sauvegardées par Amazon S3 à l'aide d'un VPC point de terminaison

Outre les magasins de données Amazon S3, vous pouvez configurer vos tables de catalogue de données basées sur Amazon S3 pour qu'elles ne soient accessibles qu'à un environnement Amazon Virtual Private Cloud (AmazonVPC), à des fins de sécurité, d'audit ou de contrôle. Pour plus d'informations, consultez Analyser un magasin de données Amazon S3 ou des tables de catalogue de données sauvegardées par Amazon S3 à l'aide d'un VPC point de terminaison.

3 février 2022

Support des tables régies de Lake Formation

Ajout d'informations sur la AWS Glue prise en charge des tables gouvernées par Lake Formation, qui prennent en charge ACID les transactions, le compactage automatique des données et les requêtes de voyage dans le temps. Pour plus d'informations, consultez AWS GlueAPIle guide du AWS Lake Formation développeur.

30 novembre 2021

Nouvelles politiques AWS gérées ajoutées pour les sessions interactives et les blocs-notes

De nouvelles politiques gérées ont renforcé IAM la sécurité lors de l'utilisation AWS Glue des sessions interactives et des blocs-notes. Pour plus d'informations, veuillez consulter la rubrique Politiques gérées par AWS pour AWS Glue.

30 novembre 2021

Registre de schémas Glue désormais supportés avec les tâches de streaming

Vous pouvez créer des tâches de streaming qui accèdent aux tables qui font partie du registre de schéma Glue. Pour plus d'informations, consultez les AWS Glue sections Registre des schémas et Ajout de ETL tâches de streaming dans AWS Glue.

15 novembre 2021

Support des nouvelles fonctions de machine learning

Ajout d'informations sur les nouvelles fonctions de transformation machine learning Rechercher de correspondances, y compris la correspondance progressive et la notation des correspondances. Pour en savoir plus, consultez Recherche de correspondances progressives et Estimation de la qualité des correspondances à l'aide des notes de confiance des correspondances.

31 octobre 2021

(Prévisualisation privée) Prise en charge de tâches AWS Glue flexibles

Ajout d'informations sur la configuration des tâchesAWS GlueSpark avec une classe d'exécution flexible, adaptée aux tâches non urgentes dont les heures de début et de fin peuvent varier. Pour plus d’informations, consultez Ajout de tâches dans AWS Glue.

29 octobre 2021

Prise en charge de l'accélération des analyse à l'aide des notifications d'événements Amazon S3

Ajout d'informations sur l'accélération des analyse à l'aide des notifications d'événements Amazon S3. Pour en savoir plus, consultez Accélération des analyse à l'aide des notifications d'événements Amazon S3.

15 octobre 2021

Options de configuration de sécurité supplémentaires liées au contrôle d'accès et VPCs

Ajout d'informations sur la façon dont vous pouvez configurer les nouvelles autorisations de contrôle d'accès AWS Glue et la configuration deVPCs. Pour plus d'informations, consultez les rubriques AWSBalises AWS Glue, Politiques basées sur l'identité (IAMpolitiques) qui contrôlent les paramètres à l'aide de clés de condition ou de touches contextuelles, et Configuration de tous les AWS appels pour qu'ils passent par votre. VPC

13 octobre 2021

Support pour les politiques relatives aux VPC terminaux

Ajout d'informations sur la prise en charge des politiques de point de terminaison Virtual Private Cloud (VPC) dansAWS Glue. Pour plus d'informations, consultez AWS Glueet interface VPC endpoints (AWS PrivateLink).

11 octobre 2021

Glue Studio est désormais disponible en Chine

AWS Glue Studio est maintenant disponible dans les régions de Beijing et de Ningxia en Chine.

11 octobre 2021

AWS Glue Studio permet de créer des blocs-notes, pour une édition interactive des tâches

Les blocs-notes vous permettent d'écrire et d'exécuter du code, de visualiser les résultats et de partager des informations. En général, les spécialistes des données utilisent des blocs-notes pour des expériences et des tâches d'exploration de données. Pour plus d'informations, consultez Using Notebooks (Utilisation des blocs-notes).

1er octobre 2021

Un accès direct aux sources de streaming est désormais disponible

Lorsque vous ajoutez des sources de données à votre ETL tâche dans l'éditeur visuel, vous pouvez fournir des informations pour accéder au flux de données au lieu d'avoir à utiliser une base de données et une table de catalogue de données.

30 septembre 2021

A documenté la politique de support des versions AWS Glue

Ajout d'informations sur la politique de support de version AWS Glue et les phases de fin de vie pour certaines versions AWS Glue. Pour en savoir plus, consultez politique de prise en charge de version AWS Glue.

24 septembre 2021

Les connecteurs personnalisés peuvent désormais être utilisés avec des prévisualisations de données

Lorsque vous modifiez un nœud de source de données à l’aide d’un connecteur personnalisé, vous pouvez prévisualiser le jeu de données en cliquant sur l’onglet Aperçu des données. Pour plus d'informations, consultez Custom Connectors (Connecteurs personnalisés).

24 septembre 2021

Support pour les sessions AWS Glue interactives (aperçu privé)

(Aperçu privé) Ajout d'informations sur l'utilisation de sessions AWS Glue interactives pour exécuter des charges de travail Spark dans le cloud à partir de n'importe quel bloc-notes Jupyter. Les sessions interactives constituent la méthode préférée pour développer votre code AWS Glue d'extraction, de transformation et de chargement (ETL) lorsque vous utilisez la AWS Glue version 2.0 ou une version ultérieure. Pour plus d'informations, consultez Configuration et exécution de sessions AWS Glue interactives pour Jupyter Notebook.

24 août 2021

Prise en charge de la création de flux de travail à partir de plans (GA)

Ajout d'informations sur le codage de cas d'utilisation courants d'extraction, de transformation et de chargement (ETL) dans les plans, puis sur la création de flux de travail à partir de plans. Permet aux analystes de données de créer et d'exécuter facilement ETL des processus complexes. Pour plus d'informations, voir Exécution d'ETLactivités complexes à l'aide de plans et de flux de travail dans AWS Glue.

23 août 2021

Prise en charge de la AWS Glue version 3.0.

Ajout d'informations sur la prise en charge de la AWS Glue version 3.0, qui prend en charge la mise à niveau du moteur Apache Spark 3.0 pour l'exécution des ETL tâches Apache Spark, ainsi que d'autres optimisations et mises à niveau. Pour de plus amples informations, veuillez consulter Notes de mise à jour AWS Glue et Migration de tâches AWS Glue vers la version 3.0 de AWS Glue. Les autres fonctionnalités de cette version incluent le gestionnaire de AWS Glue shuffle, un CSV lecteur SIMD vectorisé et des prédicats de partition de catalogue. Pour plus d'informations, consultez le gestionnaire de shuffle AWS Glue Spark avec Amazon S3, les options de format pour les ETL entrées et les sortiesAWS Glue, et le filtrage côté serveur à l'aide des prédicats de partition de catalogue.

18 août 2021

AWS GovCloud (US) Region

AWS Glue Studioest désormais disponible dans le AWS GovCloud (US) Region

18 août 2021

Autorisation d'un shell Python disponible dans AWS Glue Studio

Lors de la création d'une nouvelle tâche, vous pouvez maintenant choisir de créer une tâche shell Python. Pour en savoir plus, consultez Start the job creation process et Editing Python shell jobs in AWS Glue Studio.

13 août 2021

Support pour démarrer un flux de travail avec un EventBridge événement Amazon

Ajout d'informations sur la façon dont AWS Glue peut être un consommateur d'événements dans une architecture événementielle. Pour plus d'informations, consultez Démarrer un AWS Glue flux de travail avec un EventBridge événement Amazon et Afficher les EventBridge événements qui ont démarré un flux de travail.

14 juillet 2021

Ajout du format JSON de données pris en charge pour le registre AWS Glue de schémas

Ajout d'informations sur JSON le format de données pris en charge (en plus deAVRO). Pour de plus amples informations, veuillez consulter Registre de schémas AWS Glue.

30 Juin 2021

Créer des AWS Glue tâches de streaming sans un tableau de catalogue de données

La fonction create_data_frame_from_optionsPython ou getSourceles scripts Scala permettent de créer des ETL tâches de streaming qui font directement référence aux flux de données au lieu de nécessiter une table de catalogue de données.

15 juin 2021

AWS Gluel'apprentissage automatique transforme désormais les AWS Key Management Service clés de support

Vous pouvez spécifier une configuration ou une AWS KMS clé de sécurité lorsque vous configurez des transformations de AWS Glue Machine Learning à l'aide de la consoleCLI, du ou du AWS GlueAPIs. Pour plus d'informations, consultez la section Utilisation du chiffrement des données avec les transformations du Machine Learning et le AWS GlueMachine Learning API.

15 juin 2021

Mise à jour de la politique AWSGlueConsoleFullAccess AWS gérée

Ajout d'informations concernant une mise à jour mineure de la politique AWSGlueConsoleFullAccess AWS gérée. Pour plus d'informations, consultez la section AWS GlueMises à jour des politiques AWS gérées.

10 juin 2021

Afficher le jeu de données de votre tâche lors de la création et de la modification des tâches

Vous pouvez utiliser le nouveau module Data preview (Prévisualisation des données) d'un nœud dans votre diagramme de tâche pour afficher un échantillon des données traitées par ce nœud. Pour de plus amples informations, veuillez consulter la rubrique Utilisation des prévisualisations de données dans l'éditeur de tâches visuel.

7 juin 2021

Prise en charge de la spécification d'une valeur qui indique l'emplacement de la table pour la sortie du crawler.

Ajout d'informations sur la spécification d'une valeur indiquant l'emplacement de la table lors de la configuration de la sortie du crawler. Pour de plus amples informations, veuillez consulter Procédure pour spécifier l'emplacement de la table.

4 juin 2021

Prise en charge de l'analyse d'un échantillon de fichiers dans un jeu de données lors de l'exploration d'un magasin de données Amazon S3

Ajout d'informations sur l'analyse d'un échantillon de fichiers lors de l'analyse d'Amazon S3. Pour plus d'informations, consultez Propriétés de l'crawler.

10 mai 2021

Support du scripteur Parquet optimisé par AWS Glue

Ajout d'informations sur l'utilisation du rédacteur de parquet AWS Glue optimisé DynamicFrames pour créer ou mettre à jour des tableaux avec la parquet classification. Pour plus d'informations, voir Création de tables, mise à jour du schéma et ajout de nouvelles partitions dans le catalogue de données à partir de AWS Glue ETL tâches et Options de format pour les ETL entrées et sorties dans AWS Glue.

4 mai 2021

Prise en charge des mots de passe pour l'authentification du client Kafka

Ajout d'informations sur la manière dont les ETL tâches de streaming AWS Glue prennent en charge l'authentification par certificat SSL client auprès des producteurs de flux Apache Kafka. Vous pouvez désormais fournir un certificat personnalisé lors de la définition d'une connexion AWS Glue à un cluster Apache Kafka, que AWS Glue utilisera lors de l'authentification avec celui-ci. Pour plus d'informations, consultez Propriétés de AWS Glue connexion et connexion API.

28 avril 2021

Support pour la consommation de données d'Amazon Kinesis Data Streams sur un autre compte dans ETL le cadre de jobs de streaming

Ajout d'informations sur la création d'une ETL tâche de streaming pour utiliser les données d'Amazon Kinesis Data Streams dans un autre compte. Pour plus d'informations, consultez la section Ajout de ETL tâches de streaming dans AWS Glue.

30 mars 2021

SQLtransformation disponible

Vous pouvez utiliser un nœud de SQLtransformation pour écrire votre propre transformation sous la forme d'une SQL requête. Pour plus d'informations, consultez la section Utilisation d'une SQL requête pour transformer des données.

23 mars 2021

Prise en charge de la création de flux de travail à partir de plans (version préliminaire publique)

(Aperçu public) Ajout d'informations sur le codage des cas d'utilisation courants d'extraction, de transformation et de chargement (ETL) dans les plans, puis sur la création de flux de travail à partir de plans. Permet aux analystes de données de créer et d'exécuter facilement ETL des processus complexes. Pour plus d'informations, voir Exécution d'ETLactivités complexes à l'aide de plans et de flux de travail dans AWS Glue.

22 mars 2021

Les connecteurs peuvent être utilisés pour les cibles de données

L'utilisation d'un AWS Marketplace connecteur ou d'un personnalisé pour votre cible de données est désormais prise en charge. Pour de plus amples informations, veuillez consulter la rubrique Création de tâches avec des connecteurs personnalisés.

15 mars 2021

Support des métriques d'importance des colonnes pour les transformations de machine learning AWS Glue

Ajout d'informations sur l'affichage des métriques d'importance des colonnes lors de l'utilisation de transformations de machine learning AWS Glue. Pour plus d'informations, consultez Utilisation de transformations de machine learning sur la console AWS Glue.

5 février 2021

La planification des tâches est désormais disponible dans AWS Glue Studio

Vous pouvez définir une planification temporelle pour l'exécution de vos tâches dans AWS Glue Studio. Vous pouvez utiliser la console pour créer une planification de base, ou définir une planification plus complexe à l'aide de la syntaxe de type Unix cron. Pour de plus amples informations, veuillez consulter la rubrique Planification des exécutions de tâches.

21 décembre 2020

AWS Glue Lancement des connecteurs personnalisés

Les connecteurs personnalisés AWS Glue vous permettent de découvrir et de vous abonner aux connecteurs dans AWS Marketplace. Nous avons également publié des interfaces d'exécution AWS Glue Spark pour connecter des connecteurs conçus pour Apache Spark Datasource, Athena federated Query et. JDBC APIs Pour en savoir plus, consultez Using Connectors and connections with AWS Glue Studio.

21 décembre 2020

Support pour l'exécution de ETL tâches de streaming dans AWS Glue la version 2.0

Ajout d'informations sur la prise en charge de l'exécution de ETL jobs de streaming dans la version 2.0 de Glue. Pour plus d'informations, consultez la section Ajout de ETL tâches de streaming dans AWS Glue.

18 décembre 2020

Prise en charge du partitionnement de la charge de travail avec exécution limitée

Ajout d'informations sur l'activation du partitionnement de la charge de travail pour configurer les limites supérieures de la taille du jeu de données ou le nombre de fichiers traités lors de l'exécution des ETL tâches. Pour de plus amples informations, veuillez consulter Partitionnement de la charge de travail avec exécution limitée.

23 novembre 2020

Prise en charge de la gestion améliorée des partitions

Ajout d'informations sur la façon d'utiliser new APIs pour ajouter ou supprimer un index de partition vers/depuis une table existante. Pour plus d'informations, consultez Utilisation des index de partition.

23 novembre 2020

Support du registre de schémas AWS Glue

Ajout d'informations sur l'utilisation du registre de schémas AWS Glue pour découvrir, contrôler et faire évoluer les schémas de manière centralisée. Pour plus d'informations, consultez Registre de schémas AWS Glue.

19 novembre 2020

Support du format d'entrée grok dans les tâches de streaming ETL

Ajout d'informations sur l'application de modèles Grok aux sources de streaming telles que les fichiers journaux. Pour de plus amples informations, veuillez consulter Application de modèles Grok à des sources de streaming.

17 novembre 2020

Support de l'ajout d'identification aux flux de travail sur la console AWS Glue

Ajout d'informations sur l'ajout de balises lors de la création d'un flux de travail à l'aide de la console AWS Glue. Pour de plus amples informations, veuillez consulter Création et développement d'un flux de travail à l'aide de la console AWS Glue.

27 octobre 2020

Prise en charge des exécutions progressives du crawler

Ajout d'informations sur la prise en charge des exécutions incrémentielles du crawler, qui n'analysent que les dossiers Amazon S3 ajoutés depuis la dernière exécution. Pour de plus amples informations, veuillez consulter Analyses incrémentielles.

21 octobre 2020

Support pour la détection des schémas pour les sources de ETL données de streaming. Support pour les sources de données de streaming Avro et ETL Kafka autogéré

Les tâches d'extraction, de transformation et de chargement (ETL) en streaming AWS Glue peuvent désormais détecter automatiquement le schéma des enregistrements entrants et gérer les modifications de schéma par enregistrement. Les sources de données Kafka autogérées sont désormais prises en charge. Les ETL jobs de streaming prennent désormais en charge le format Avro dans les sources de données. Pour plus d'informations, consultez Streaming ETL in AWS Glue, Définition des propriétés d'une tâche de streaming ETL et Remarques et restrictions relatives aux sources de streaming Avro.

7 octobre 2020

Prise en charge de l'analyse des sources de données MongoDB et DocumentDB

Ajout d'informations sur la prise en charge de l'analyse des sources de données MongoDB et Amazon DocumentDB (avec compatibilité MongoDB). Pour plus d'informations, consultez Définition des crawlers.

5 octobre 2020

Support en matière de FIPS conformité

Ajout d'informations sur les FIPS points de terminaison pour les clients qui ont besoin de FIPS 140 à 2 modules cryptographiques validés pour accéder aux données à l'aide de. AWS Glue Pour plus d'informations, consultez la section FIPSConformité.

23 septembre 2020

AWS Glue Studio fournit une interface visuelle facile à utiliser pour la création et la surveillance de tâches

Vous pouvez désormais utiliser une interface graphique simple pour composer des tâches qui déplacent et transforment les données et les exécutent sur AWS Glue. Vous pouvez ensuite utiliser le tableau de bord d'exécution des tâches AWS Glue Studio pour surveiller ETL l'exécution et vous assurer que vos tâches fonctionnent comme prévu. Pour plus d’informations, consultez le AWS Glue Studio guide de l’utilisateur.

23 septembre 2020

Prise en charge de la création d'index de tableau pour améliorer les performances des requêtes

Ajout d'informations sur la création d'index de table pour vous permettre de récupérer un sous-ensemble des partitions d'une table. Pour plus d'informations, consultez Utilisation des index de partition.

9 septembre 2020

Support pour réduire les temps de démarrage lors de l'exécution de ETL tâches Apache Spark dans AWS Glue la version 2.0.

Ajout d'informations sur la prise en charge de la AWS Glue version 2.0, qui fournit une infrastructure améliorée pour exécuter les ETL tâches Apache Spark avec des temps de démarrage réduits, des modifications dans la journalisation et la prise en charge de la spécification de modules Python supplémentaires au niveau des tâches. Pour plus d'informations, consultez les notes AWS Glue de mise à jour et l'exécution de ETL tâches Spark avec des temps de démarrage réduits.

10 août 2020

Prise en charge de la limitation du nombre d'exécutions de flux de travail simultanées.

Ajout d'informations sur la manière de limiter le nombre d'exécutions de flux de travail simultanées pour un flux de travail particulier. Pour de plus amples informations, veuillez consulter Création et développement d'un flux de travail à l'aide de la console AWS Glue.

10 août 2020

Support pour l'exploration d'un magasin de données Amazon S3 à l'aide d'un VPC point de terminaison

Ajout d'informations sur la configuration de votre magasin de données Amazon S3 pour qu'il ne soit accessible qu'à un environnement Amazon Virtual Private Cloud (AmazonVPC), à des fins de sécurité, d'audit ou de contrôle. Pour plus d'informations, consultez Explorer un magasin de données Amazon S3 à l'aide d'un VPC point de terminaison.

7 août 2020

Prise en charge de la reprise des exécutions de flux de travail

Ajout d'informations sur la façon de reprendre les exécutions de flux de travail qui ne se sont que partiellement terminées, car un ou plusieurs nœuds (tâches ou crawlers) ne se sont pas terminés avec succès. Pour plus d'informations, consultez Réparer et reprendre l'exécution d'un flux de travail.

27 juillet 2020

Prise en charge de l'activation des certificats d'autorité de certification privés dans les connexions Kafka au format AWS Glue.

Ajout d'informations sur les nouvelles options de connexion qui prennent en charge l'activation des certificats d'autorité de certification privés pour les connexions Kafka dans AWS Glue. Pour plus d'informations, voir Types de connexion et options pour ETL les paramètres internes AWS Glue et spéciaux utilisés par AWS Glue.

20 juillet 2020

Prise en charge de la lecture des données DynamoDB dans un autre compte

Ajout d'informations sur la prise en charge de AWS Glue pour la lecture de données à partir de la table DynamoDB d'un autre compte AWS . Pour plus d'informations, consultez Lecture à partir de données DynamoDB dans un autre compte.

17 juillet 2020

Support d'une connexion d'écriture DynamoDB dans la version 1.0 AWS Glue ou ultérieure

Ajout d'informations sur la prise en charge de l'écrivain DynamoDB et des options de connexion nouvelles ou mises à jour pour la lecture ou l'écriture de DynamoDB. Pour plus d'informations, consultez la section Types de connexion et options pour ETL l'entrée AWS Glue.

17 juillet 2020

Prise en charge des liens de ressources et du contrôle d'accès entre différents comptes en utilisant à la fois AWS Glue et Lake Formation

Ajout de contenu sur les nouveaux objets Data Catalog appelés liens de ressources, et sur la façon de gérer le partage des ressources Data Catalog entre les comptes avec AWS Glue et AWS Lake Formation. Pour de plus amples informations, veuillez consulter Octroi d'un accès intercompte et Liens de ressources de table.

7 juillet 2020

Prise en charge des registres d'échantillonnage lors de l'analyse des stocks de données DynamoDB

Ajout d'informations sur les nouvelles propriétés que vous pouvez configurer lors de l'analyse d'un magasin de données DynamoDB. Pour plus d'informations, consultez Propriétés de l'crawler.

12 juin 2020

Prise en charge de l'arrêt d'une exécution de flux de travail.

Ajout d'informations sur la façon d'arrêter le cycle d'un flux de travail spécifique. Pour plus d'informations, consultez Arrêt d'un cycle de flux de travail.

14 mai 2020

Support pour les ETL tâches de streaming dans Spark

Ajout d'informations sur la création de tâches d'extraction, de transformation et de chargement (ETL) avec des sources de données en streaming. Pour plus d'informations, consultez la section Ajout de ETL tâches de streaming dans AWS Glue.

27 avril 2020

Support pour la création de tables, la mise à jour du schéma et l'ajout de nouvelles partitions dans le catalogue de données après l'exécution d'une ETL tâche

Ajout d'informations sur la façon dont vous pouvez activer la création de tables, la mise à jour du schéma et l'ajout de nouvelles partitions pour afficher les résultats de votre ETL travail dans le catalogue de données. Pour plus d'informations, voir Création de tables, mise à jour du schéma et ajout de nouvelles partitions dans le catalogue de données à partir de AWS Glue ETL tâches.

2 avril 2020

Support pour spécifier une version pour le format de données Apache Avro en ETL entrée et en sortie dans AWS Glue

Ajout d'informations sur la spécification d'une version pour le format de données Apache Avro en tant qu'ETLentrée et sortie dansAWS Glue. Version par défaut 1.7. Vous pouvez utiliser l'option de format version pour spécifier à Avro 1.8 d'activer la lecture/écriture logique. Pour plus d'informations, consultez la section Options de format pour les ETL entrées et les sorties dans AWS Glue.

31 mars 2020

Support du validateur EMRFS optimisé pour S3 pour l'écriture de données Parquet dans Amazon S3

Ajout d'informations sur la façon de définir un nouvel indicateur pour permettre au validateur EMRFR optimisé pour S3 d'écrire des données Parquet dans Amazon S3 lors de la création ou de la mise à jour d'une tâche. AWS Glue Pour plus d'informations, consultez Paramètres spéciaux utilisés par AWS Glue.

30 mars 2020

Support à l'apprentissage automatique : transformation en tant que ressource gérée par AWS des balises de ressources

Des informations supplémentaires sur l'utilisation de balises de AWS ressources pour gérer et contrôler l'accès à votre machine learning se transformentAWS Glue. Vous pouvez attribuer AWS des balises de ressources aux tâches, aux déclencheurs, aux points de terminaison, aux robots d'exploration et aux transformations de machine learning. AWS Glue Pour en savoir plus, veuillez consulter Balises AWS dans AWS Glue.

2 mars 2020

Prise en charge des arguments de tâche non substituables

Ajout d'informations sur la prise en charge des paramètres de tâche spéciaux qui ne peuvent pas être remplacés dans les déclencheurs ou lorsque vous exécutez la tâche. Pour plus d'informations, consultez Ajout de tâches dans AWS Glue.

12 février 2020

Prise en charge des nouvelles transformations pour l'utilisation des jeux de données dans Amazon S3

Ajout d'informations sur les nouvelles transformations (Fusion, Purge et Transition) et sur les exclusions de classe de stockage Amazon S3 pour les applications Apache Spark dans le cadre de l'utilisation des ensembles de données dans Amazon S3. Pour plus d'informations sur la prise en charge de ces transformations pour Python, consultez la section Utilisation mergeDynamicFramedes ensembles de données dans Amazon S3. Pour Scala, voir mergeDynamicFrameset AWS GlueScala GlueContext APIs.

16 janvier 2020

Support pour la mise à jour du catalogue de données avec les nouvelles informations de partition issues d'une ETL tâche

Ajout d'informations sur la façon de coder un script d'extraction, de transformation et de chargement (ETL) pour mettre à jour les informations de partition AWS Glue Data Catalog avec de nouvelles informations. Avec cette fonctionnalité, vous n'avez plus besoin de réexécuter le crawler à la fin de la tâche pour afficher les nouvelles partitions. Pour plus d'informations, consultez Mise à jour de Data Catalog avec de nouvelles partitions.

15 janvier 2020

Nouveau tutoriel : Utilisation d'un SageMaker bloc-notes

Ajout d'un didacticiel expliquant comment utiliser un SageMaker bloc-notes Amazon pour développer vos propres scripts ETL et ceux du machine learning. Consultez le didacticiel : utilisez un SageMaker bloc-notes Amazon avec votre terminal de développement.

3 janvier 2020

Prise en charge de la lecture depuis MongoDB et Amazon DocumentDB (avec compatibilité MongoDB)

Ajout d'informations sur les nouveaux types de connexion et options de connexion pour la lecture et l'écriture dans MongoDB et Amazon DocumentDB (avec compatibilité MongoDB). Pour plus d'informations, consultez la section Types de connexion et options pour ETL l'entrée AWS Glue.

17 décembre 2019

Corrections et clarifications diverses

Des corrections et des clarifications ont été ajoutées. Des entrées ont été supprimées du chapitre Problèmes connus. Ajout d'avertissements qui ne prennent AWS Glue en charge que les clés principales symétriques du client (CMKs) lors de la spécification des paramètres de chiffrement du catalogue de données et de la création de configurations de sécurité. Ajout d'une note indiquant que AWS Glue ne prend pas en charge l'écriture vers Amazon DynamoDB.

9 décembre 2019

Support pour les JDBC pilotes personnalisés

Ajout d'informations sur la connexion aux sources de données et aux cibles avec des JDBC pilotes qui AWS Glue ne sont pas pris en charge de manière native, tels que My SQL version 8 et Oracle Database version 18. Pour plus d'informations, voir JDBC connectionType Valeurs.

25 novembre 2019

Support pour connecter des SageMaker ordinateurs portables à différents terminaux de développement

Ajout d'informations sur la façon dont vous pouvez connecter un SageMaker bloc-notes à différents terminaux de développement. Mises à jour pour décrire la nouvelle action de console pour passer à un nouveau point de terminaison de développement, ainsi que la nouvelle SageMaker IAM politique. Pour plus d'informations, consultez les sections Utilisation des blocs-notes sur la AWS Glue console et Création d'une IAM politique pour les SageMaker blocs-notes Amazon.

21 novembre 2019

Prise en charge de la version AWS Glue dans les transformations de machine learning

Ajout d'informations sur la définition de la version AWS Glue dans une transformation de machine learning pour indiquer la version de AWS Glue avec laquelle une transformation de machine learning est compatible. Pour plus d'informations, consultez Utilisation de transformations de machine learning sur la console AWS Glue.

21 novembre 2019

Prise en charge de la restauration de vos favoris de tâche

Ajout d'informations sur la restauration de vos marque-pages de tâche sur une exécution de tâche précédente, ce qui entraîne le retraitement des données de l'exécution de tâche suivante uniquement à partir de l'exécution de travail marquée en favori. Décrit deux nouvelles sous-options pour l'option job-bookmark-pause, qui vous permettent d'exécuter une tâche entre deux favoris. Pour plus d'informations, consultez Suivi des données traitées à l'aide des favoris de tâche et Paramètres spéciaux utilisés par AWS Glue.

22 octobre 2019

Support pour les JDBC certificats personnalisés pour la connexion à un magasin de données

Ajout d'informations sur la AWS Glue prise en charge des JDBC certificats personnalisés pour SSL les connexions aux sources de AWS Glue données ou aux cibles. Pour plus d'informations, consultez Utilisation des connexions sur la console AWS Glue.

10 octobre  2019

Prise en charge de Python wheel

Ajout d'informations sur la prise en charge par AWS Glue des fichiers wheel (avec les fichiers egg) en tant que dépendances pour les tâches shell Python. Pour plus d'informations, consultez Ajout de votre propre bibliothèque Python.

26 septembre 2019

Prise en charge de la gestion des versions des points de terminaison de développement dans AWS Glue

Ajout d'informations sur la définition de Glue version dans les points de terminaison de développement. Glue version détermine les versions d'Apache Spark et de Python prises en charge par AWS Glue. Pour plus d'informations, consultez Ajout d'un point de terminaison de développement.

19 septembre 2019

Prise en charge de la surveillance de AWS Glue à l'aide de l'interface utilisateur Spark

Ajout d'informations sur l'utilisation de l'interface utilisateur d'Apache Spark pour surveiller et déboguer les AWS Glue ETL tâches exécutées sur le système de AWS Glue tâches, ainsi que sur les applications Spark sur les terminaux de AWS Glue développement. Pour de plus amples informations, veuillez consulter Surveillance de AWS Glue à l'aide de l'interface utilisateur Spark.

19 septembre 2019

Amélioration du soutien au développement de ETL scripts locaux à l'aide de la AWS Glue ETL bibliothèque publique

Le contenu de la AWS Glue ETL bibliothèque a été mis à jour pour refléter le fait que AWS Glue la version 1.0 est désormais prise en charge. Pour plus d'informations, voir Développement et test de ETL scripts localement à l'aide de la AWS Glue ETL bibliothèque.

18 septembre 2019

Prise en charge de l'exclusion des classes de stockage Amazon S3 lors de l'exécution de tâches

Ajout d'informations sur l'exclusion des classes de stockage Amazon S3 lors de l'exécution de AWS Glue ETL tâches de lecture de fichiers ou de partitions depuis Amazon S3. Pour de plus amples informations, veuillez consulter Exclusion des classes de stockage Amazon S3.

29 août 2019

Support pour le développement de ETL scripts locaux à l'aide de la AWS Glue ETL bibliothèque publique

Ajout d'informations sur la façon de développer et de tester des ETL scripts Python et Scala localement sans avoir besoin d'une connexion réseau. Pour plus d'informations, voir Développement et test de ETL scripts localement à l'aide de la AWS Glue ETL bibliothèque.

28 août 2019

Problèmes connus

Ajout d'informations sur les problèmes connus liés à AWS Glue. Pour plus d'informations, consultez Problèmes connus liés à AWS Glue.

28 août 2019

Prise en charge des transformations de machine learning dans AWS Glue

Ajout d'informations sur les capacités de machine learning fournies par AWS Glue pour créer des transformations personnalisées. Vous pouvez créer ces transformations lorsque vous créez une tâche. Pour plus d'informations, consultez Transformations du Machine Learning dans AWS Glue.

8 août 2019

Prise en charge du cloud privé virtuel partagé d'Amazon

Ajout d'informations sur la prise en charge de AWS Glue pour Amazon Virtual Private Cloud partagé. Pour plus d'informations, consultez Shared Amazon VPCs.

6 août 2019

Prise en charge de la gestion des versions dans AWS Glue

Ajout d'informations sur la définition de Glue version dans les propriétés de tâche. AWS Glue détermine les versions d'Apache Spark et de Python prises en charge par AWS Glue. Pour plus d’informations, consultez Ajout de tâches dans AWS Glue.

24 juillet 2019

Prise en charge d'options de configuration supplémentaires pour les points de terminaison de développement

Ajout d'informations sur les options de configuration pour les points de terminaison de développement ayant des charges de travail gourmandes en mémoire. Vous avez le choix entre deux nouvelles configurations qui offrent une plus grande capacité de mémoire par exécuteur. Pour plus d'informations, consultez Utilisation des points de terminaison de développement sur la console AWS Glue.

24 juillet 2019

Support pour l'exécution d'activités d'extraction, de transfert et de chargement (ETL) à l'aide de flux de travail

Ajout d'informations sur l'utilisation d'une nouvelle structure appelée flux de travail pour concevoir une activité complexe d'extraction, de transformation et de chargement (ETL) à plusieurs tâches AWS Glue pouvant être exécutée et suivie en tant qu'entité unique. Pour plus d'informations, voir Exécution d'ETLactivités complexes à l'aide de flux de travail dans AWS Glue.

20 juin 2019

Prise en charge de Python 3.6 dans les tâches shell Python

Ajout d'informations sur la prise en charge de Python 3.6 dans les tâches shell Python. Vous pouvez spécifier Python 2.7 ou Python 3.6 en tant que propriété de tâche. Pour en savoir plus, consultez Ajout de tâches shell Python dans AWS Glue.

5 juin 2019

Support pour les points de terminaison du cloud privé virtuel (VPC)

Ajout d'informations sur la connexion directe AWS Glue via un point de terminaison d'interface dans votreVPC. Lorsque vous utilisez un point de terminaison d'VPCinterface, la communication entre vous VPC et vous AWS Glue s'effectue entièrement et en toute sécurité au sein du AWS réseau. Pour plus d'informations, consultez la section Utilisation AWS Glue avec des VPC points de terminaison.

4 juin 2019

Support de la journalisation continue en temps réel pour les tâches AWS Glue.

Ajout d'informations sur l'activation et l'affichage des journaux des tâches Apache Spark en temps réel, CloudWatch notamment les journaux des pilotes, les journaux de chacun des exécuteurs et une barre de progression des tâches Spark. Pour plus d'informations, consultez Journalisation continue des tâchesAWS Glue.

28 mai 2019

Prise en charge des tableaux du catalogue de données existantes en tant que sources du crawler

Ajout d'informations sur la spécification d'une liste des tables Data Catalog existantes en tant que sources du crawler. Les crawlers peuvent ensuite détecter des modifications apportées aux schémas de table, mettre à jour les définitions de table et enregistrer de nouvelles partitions au fur et à mesure que de nouvelles données sont disponibles. Pour plus d'informations, consultez Propriétés de l'crawler.

10 mai 2019

Prise en charge des options de configuration supplémentaires pour les tâches gourmandes en mémoire

Ajout d'informations sur les options de configuration pour les tâches Apache Spark avec des charges de travail gourmandes en mémoire. Vous avez le choix entre deux nouvelles configurations qui offrent une plus grande capacité de mémoire par exécuteur. Pour plus d’informations, consultez Ajout de tâches dans AWS Glue.

5 avril 2019

Support pour les CSV classificateurs personnalisés

Ajout d'informations sur l'utilisation d'un CSV classificateur personnalisé pour déduire le schéma de différents types de CSV données. Pour plus d'informations, consultez Écriture de classifieurs personnalisés.

26 mars 2019

Support pour les balises AWS de ressources

Ajout d'informations sur l'utilisation AWS des balises de ressources pour vous aider à gérer et à contrôler l'accès à vos AWS Glue ressources. Vous pouvez attribuer AWS des balises de ressources aux tâches, aux déclencheurs, aux points de terminaison et aux robots d'exploration dans. AWS Glue Pour en savoir plus, veuillez consulter Balises AWS dans AWS Glue.

20 mars 2019

Support du catalogue de données pour les SQL tâches Spark

Ajout d'informations sur la configuration de vos AWS Glue tâches et de vos points de terminaison de développement pour les utiliser AWS Glue Data Catalog en tant que métastore Apache Hive externe. Cela permet aux tâches et aux points de terminaison de développement d'exécuter directement des SQL requêtes Apache Spark sur les tables stockées dans le AWS Glue Data Catalog. Pour plus d'informations, consultez AWS Glue Data Catalog Support pour Spark SQL Jobs.

14 mars 2019

Prise en charge des tâches shell Python

Ajout d'informations sur les tâches shell Python et le nouveau champ Maximum capacity (Capacité maximum). Pour en savoir plus, consultez Ajout de tâches shell Python dans AWS Glue.

18 janvier 2019

Prise en charge des notifications en cas de modification des base de données et des tableaux

Ajout d'informations sur les événements générés pour les modifications apportées aux API appels de base de données, de table et de partition. Vous pouvez configurer des actions dans CloudWatch Events pour répondre à ces événements. Pour plus d'informations, consultez Automatisation à l'AWS Glueaide d' CloudWatch événements.

16 janvier 2019

Prise en charge du chiffrage de mots de passe de connexion

Ajout d'informations concernant le chiffrement de mots de passe utilisés dans les objets de connexion. Pour plus d'informations, consultez Chiffrement des mots de passe de connexion.

11 décembre 2018

Prise en charge des autorisations au niveau des ressources et des politiques basées sur les ressources

Ajout d'informations sur l'utilisation des autorisations au niveau des ressources et des politiques basées sur les ressources avec AWS Glue. Pour plus d'informations, consultez les rubriques répertoriées dans Sécurité dans AWS Glue.

15 octobre 2018

Support pour SageMaker ordinateurs portables

Ajout d'informations sur l'utilisation de SageMaker blocs-notes avec des terminaux AWS Glue de développement. Pour plus d'informations, consultez Gestion des blocs-notes.

5 octobre 2018

Prise en charge du chiffrement

Ajout d'informations sur l'utilisation de chiffrement avec AWS Glue. Pour de plus amples informations, veuillez consulter Chiffrement au repos, Chiffrement en transit et Configuration du chiffrement dans AWS Glue.

24 août 2018

Prise en charge des métriques de tâches Apache Spark

Ajout d'informations sur l'utilisation des métriques d'Apache Spark pour améliorer le débogage et le profilage des ETL tâches. Vous pouvez facilement suivre les indicateurs d'exécution tels que les octets lus et écrits, l'utilisation de la mémoire et le CPU chargement du pilote et des exécuteurs, ainsi que les transferts de données entre les exécuteurs depuis la console. AWS Glue Pour plus d'informations, consultez les sections Surveillance AWS Glue à l'aide de CloudWatch métriques, Surveillance et débogage des tâches, et Utilisation des tâches sur la AWS Glue console.

13 juillet 2018

Prise en charge de DynamoDB en tant que source de données

Ajout d'informations sur l'exploration de DynamoDB et son utilisation comme source de données pour les tâches. ETL Pour plus d'informations, consultez Catalogage de tables avec un crawler et Paramètres de connexion.

10 juillet 2018

Mises à jour pour créer une procédure de serveur de bloc-notes

Informations mises à jour sur la création d'un serveur de blocs-notes sur une EC2 instance Amazon associée à un point de terminaison de développement. Pour plus d'informations, consultez Création d'un serveur de bloc-notes associé à un point de terminaison de développement.

9 juillet 2018

Les mises à jour sont désormais disponibles sur RSS

Vous pouvez désormais vous abonner à un RSS fil pour recevoir des notifications concernant les mises à jour du Guide du AWS Glue développeur.

25 juin 2018

Prise en charge des notifications de délai d'attente pour les tâches

Ajout d'informations sur la configuration d'un seuil de délai d'attente lorsqu'une tâche est exécutée. Pour plus d’informations, consultez Ajout de tâches dans AWS Glue.

25 mai 2018

Configuration d'un crawler pour ajouter de nouvelles colonnes

Ajout d'informations sur la nouvelle option de configuration pour les robots d'exploration, MergeNewColumns. Pour plus d'informations, consultez Configuration d'un crawler.

7 mai 2018

Prise en charge du délai d'expiration des tâches

Ajout d'informations sur la définition d'un seuil de délai d'expiration lorsqu'une tâche est exécutée. Pour plus d’informations, consultez Ajout de tâches dans AWS Glue.

10 avril 2018

Support du ETL script Scala et des tâches de déclenchement basées sur des états d'exécution supplémentaires

Ajout d'informations sur l'utilisation de Scala comme langage de ETL programmation. De plus, le déclencheur permet API désormais de tirer lorsque toutes les conditions sont remplies (en plus de toutes les conditions). En outre, les tâches peuvent être déclenchées en fonction de l'« échec » ou de l'« arrêt » d'une tâche exécutée (en plus d'une exécution de tâche « réussie »).

12 janvier 2018

Mises à jour antérieures

Le tableau ci-après décrit les modifications importantes apportées dans chaque version du Manuel du développeur AWS Glue avant janvier 2018.

Modification Description Date
Support XML des sources de données et de la nouvelle option de configuration du crawler Ajout d'informations sur la classification XML des sources de données et d'une nouvelle option de robot d'exploration pour les modifications de partition. 16 novembre 2017
Nouvelles transformations, prise en charge de moteurs de RDS base de données Amazon supplémentaires et améliorations des terminaux de développement Ajout d'informations sur les transformations des cartes et des filtres, la prise en charge d'Amazon RDS Microsoft SQL Server et d'Amazon RDS Oracle, ainsi que les nouvelles fonctionnalités pour les points de terminaison de développement. 29 septembre 2017
Première version d'AWS Glue Il s'agit de la première version du Guide du développeur AWS Glue . 14 août 2017