Dokumentationsverlauf für AWS Glue - AWS Glue

Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.

Dokumentationsverlauf für AWS Glue

ÄnderungBeschreibungDatum

Support für Job Run Queuing for AWS Glue ETL Jobs

Sie können die Warteschlange für die Ausführung von Jobs aktivieren, um Jobs zu einem späteren Zeitpunkt auszuführen, wenn sie aufgrund von Dienstkontingenten nicht sofort ausgeführt werden können. Weitere Informationen finden Sie unter Definieren von Auftragseigenschaften für Spark-Jobs.

3. September 2024

Aktualisierte Richtlinienänderungen

Dokumentierte Änderungen an den AwsGlueSessionUserRestrictedNotebookServiceRoleRichtlinien AwsGlueSessionUserRestrictedNotebookPolicyund, die für die Unterstützung von Sitzungen mit dem tag-on-create Eigentümer-Tag-Schlüssel erforderlich sind. Weitere Informationen finden Sie unter AWS Glue Aktualisierungen der AWS verwalteten Richtlinien.

30. August 2024

Anomalieerkennung und dynamische Regeln sind jetzt allgemein verfügbar

AWS Glue Data Quality nutzt einen Algorithmus für maschinelles Lernen, um aus vergangenen Trends zu lernen und dann future Werte vorherzusagen, um Anomalien zu erkennen. Mit dynamischen Regeln können Sie dynamische Schwellenwerte angeben. Weitere Informationen finden Sie unter Optimieren der Abfrageleistung für Iceberg-Tabellen.

7. August 2024

Aktualisierte Richtlinienänderungen

Dokumentierte Änderungen an den AwsGlueSessionUserRestrictedServiceRoleRichtlinien AwsGlueSessionUserRestrictedPolicyund, die für die Unterstützung von Sitzungen mit dem tag-on-create Eigentümer-Tag-Schlüssel erforderlich sind. Weitere Informationen finden Sie unter AWS Glue Aktualisierungen der AWS verwalteten Richtlinien.

5. August 2024

Das Generieren von Spaltenstatistiken für Iceberg-Tabellen ist jetzt allgemein verfügbar

AWS Glue unterstützt die Berechnung und Aktualisierung der Anzahl unterschiedlicher Werte (NDVs) für jede Spalte in Eisberg-Tabellen. Weitere Informationen finden Sie unter Erkennung von Anomalien in den Bereichen AWS Glue Datenqualität und dynamische Regeln.

9. Juli 2024

Support für AWS Glue Nutzungsprofile

Administratoren können AWS Glue Nutzungsprofile für verschiedene Benutzerklassen innerhalb des Kontos erstellen, z. B. für Entwickler, Tester und Produktteams. Diese Flexibilität ermöglicht es Administratoren, für jede Benutzerklasse unterschiedliche Nutzungs- und Kostenkontrollen anzuwenden. Weitere Informationen finden Sie unter AWS Glue Nutzungsprofile einrichten.

18. Juni 2024

Support für einen Salesforce-Konnektor AWS Glue für Spark

Es wurden Informationen über einen neuen AWS Glue Connector für Salesforce hinzugefügt. Mit dieser Funktion können Sie Spark verwenden AWS Glue , um in Version AWS Glue 4.0 und späteren Versionen aus Salesforce zu lesen und in Salesforce zu schreiben. Weitere Informationen finden Sie unter Verbindung zu Salesforce herstellen.

22. Mai 2024

Amazon Q-Datenintegration in AWS Glue (GA)

Amazon Q Data Integration in AWS Glue ist eine neue generative KI-Funktion AWS Glue , die es Dateningenieuren und ETL Entwicklern ermöglicht, Datenintegrationsjobs in natürlicher Sprache zu erstellen. Techniker und Entwickler können Q bitten, Jobs zu verfassen, Probleme zu beheben AWS Glue und Fragen zur Datenintegration zu beantworten. Weitere Informationen erhalten Sie unter Amazon-Q-Datenintegration in AWS Glue. Diese Funktion beinhaltet eine Aktualisierung der Richtlinien AwsGlueSessionUserRestrictedPolicyAwsGlueSessionUserRestrictedNotebookServiceRole, und AwsGlueSessionUserRestrictedServiceRole AWS verwaltete Richtlinien. Weitere Informationen finden Sie unter AWS Glue Aktualisierungen der AWS verwalteten Richtlinien.

30. April 2024

Amazon Q-Datenintegration in AWS Glue (Vorschau)

Amazon Q Data Integration in AWS Glue ist eine neue generative KI-Funktion AWS Glue , die es Dateningenieuren und ETL Entwicklern ermöglicht, Datenintegrationsjobs in natürlicher Sprache zu erstellen. Techniker und Entwickler können Q bitten, Jobs zu verfassen, Probleme zu beheben AWS Glue und Fragen zur Datenintegration zu beantworten. Weitere Informationen erhalten Sie unter Amazon-Q-Datenintegration in AWS Glue. Diese Funktion beinhaltet eine Aktualisierung der AwsGlueSessionUserRestrictedNotebookPolicy AWS verwalteten Richtlinie. Weitere Informationen finden Sie unter AWS Glue Aktualisierungen der AWS verwalteten Richtlinien.

30. Januar 2024

Aktualisierung der Dokumentation für AWS Glue Streaming

Es wurde ein neues Kapitel mit neuen und neu organisierten Inhalten für AWS Glue Streaming hinzugefügt. In diesem Inhalt wird beschrieben, wie Streaming funktioniert AWS Glue, welche Eigenschaften die Datenverarbeitung in Echtzeit hat und wie Sie Ihre Streaming-Jobs überwachen können. Weitere Informationen finden Sie unter AWS Glue -Streaming.

27. Dezember 2023

Unterstützung der detaillierten Erkennung von sensiblen Daten

Mit der Transformation „Detect Sensitive Data“ lassen sich Entitäten erkennen, maskieren oder entfernen, die Sie definieren oder die von AWS Glue vordefiniert werden. Mithilfe detaillierter Aktionen können Sie außerdem eine bestimmte Aktion pro Entität anwenden. Weitere Informationen finden Sie unter Verwenden der detaillierten Erkennung sensibler Daten.

26. November 2023

Support für die Überwachung von Jobs mit AWS Glue Observability-Metriken

Nutzen Sie AWS Glue-Beobachtbarkeitsmetriken, um Einblicke in die Abläufe in AWS Glue für Apache Spark zu erhalten. So können Sie die Sichtung und Analyse von Problemen verbessern. Weitere Informationen finden Sie unter Überwachung unter Verwendung von AWS Glue-Beobachtbarkeitsmetriken.

26. November 2023

Support für die Erkennung von Anomalien in der AWS Glue Datenqualität

Die Anomalieerkennung von AWS Glue Data Quality wendet Machine-Learning-Algorithmen auf Datenstatistiken im Zeitverlauf an, um abnormale Muster und versteckte Datenqualitätsprobleme zu erkennen, die mit Regeln schwer zu ermitteln sind. Unter Anomalieerkennung in AWS Glue Data Quality finden Sie weitere Informationen.

26. November 2023

Update auf das standardmäßige Protokollierungsverhalten der Spark-Benutzeroberfläche

Spark-Jobs, die Spark-UI-Logs generieren, schreiben jetzt mit einem anderen Dateinamenmuster, um die Spark-Benutzeroberfläche in der AWS Glue Konsole zu unterstützen. Dadurch wird das Verhalten der CloudWatch Protokolle nicht geändert. Sie können das alte Verhalten wiederherstellen, indem Sie die Auftragskonfiguration aktualisieren. Weitere Informationen finden Sie unter Überwachen von Aufträgen über die Web-UI von Apache Spark.

17. November 2023

Support für neue Datenquellen in AWS Glue Spark

Verbindungen zu Amazon OpenSearch Service, AzureSQL, Azure Cosmos for NoSQL, SAP HANA Teradata Vantage und Vertica werden jetzt nativ unterstützt. AWS Glue Darüber hinaus sind Verbindungen zu diesen Datenquellen zusammen mit MongoDB jetzt für die Verwendung im Visual Editor von AWS Glue Studio verfügbar. Weitere Informationen zur Spark-Unterstützung finden Sie unter Verbindungstypen und Optionen AWS Glue für ETL Spark und Informationen zur Verwendung im visuellen Editor von AWS Glue Studio unter AWS Glue Verbindung hinzufügen. AWS Glue

17. November 2023

Support für die Generierung von Spaltenstatistiken

Sie können Statistiken auf Spaltenebene für AWS Glue Data Catalog Tabellen in Datenformaten wie Parquet,,,ORC, und berechnen JSON IONCSV, XML ohne zusätzliche Daten-Pipelines einzurichten. Weitere Informationen finden Sie unter Arbeiten mit Spaltenstatistiken.

16. November 2023

Support für die Datenkomprimierung von Iceberg-Tabellen

Um die Leseleistung von AWS Analysediensten wie Amazon Athena und Amazon sowie von AWS Glue ETL Jobs zu verbessernEMR, bietet Data Catalog eine verwaltete Komprimierung (ein Prozess, der kleine Amazon S3 S3-Objekte zu größeren Objekten komprimiert) für Iceberg-Tabellen im Datenkatalog. Weitere Informationen finden Sie unter Optimieren von Iceberg-Tabellen.

13. November 2023

Aktualisieren des Warteverhaltens bei der Auftragsausführung

Ausführungen von standardmäßigen Spark- und Python-Shell-Aufträgen werden jetzt in bestimmten Situationen zu WAITING wechseln, anstatt sofort zu FAILED zu wechseln. Weitere Informationen finden Sie unter Status von AWS Glue -Auftragsausführungen.

8. November 2023

AWS Glue Studio-Benutzerhandbuch in das AWS Glue-Entwicklerhandbuch aufgenommen

Das AWS Glue Studio-Benutzerhandbuch wurde in das Entwicklerhandbuch aufgenommen, um ein einheitliches Benutzerhandbuch für AWS Glue Studio, die AWS Glue-Konsole und den programmgesteuerten Zugriff auf AWS Glue Studio zu schaffen.

25. Oktober 2023

Aktualisierung der verwalteten Richtlinie AWSGlueServiceNotebookRole AWS

Es wurden Informationen über ein geringfügiges Update der AWSGlueServiceNotebookRole AWS verwalteten Richtlinie hinzugefügt. Weitere Informationen finden Sie unter AWS GlueAktualisierungen der AWS verwalteten Richtlinien.

09. Oktober 2023

AWS Glue Studio unterstützt fünf neue integrierte Transformationen

AWS Glue Studiounterstützt die folgenden fünf neuen integrierten Transformationen: Datensatzabgleich, Nullzeilen entfernen, JSON Spalte analysieren, JSON Pfad extrahieren und Regex-Extraktor. Weitere Informationen finden Sie unter Bearbeiten AWS Glue verwalteter Datentransformationsknoten.

11. August 2023

Aktualisierung der AWSGlueServiceRole AWS verwalteten Richtlinie

Es wurden Informationen über ein geringfügiges Update der AWSGlueServiceRole AWS verwalteten Richtlinie hinzugefügt. Weitere Informationen finden Sie unter AWS GlueAktualisierungen der AWS verwalteten Richtlinien.

4. August 2023

Unterstützung für das Crawling von Apache-Hudi-Tabellen

Es wurden Informationen zur Verwendung AWS Glue zum Crawlen von Hudi-Tabellen in Amazon S3 S3-Buckets und zur Registrierung der Hudi-Tabellen im hinzugefügt. AWS Glue Data Catalog Weitere Informationen finden Sie unter Welche Datenspeicher kann ich crawlen? und Crawler-Eigenschaften.

21. Juli 2023

Aktualisierung der verwalteten Richtlinie AWSGlueConsoleFullAccess AWS

Es wurden Informationen über ein geringfügiges Update der AWSGlueConsoleFullAccess AWS verwalteten Richtlinie hinzugefügt. Weitere Informationen finden Sie unter AWS GlueAktualisierungen der AWS verwalteten Richtlinien.

14. Juli 2023

Unterstützung für das Crawling von Apache-Iceberg-Tabellen

Es wurden Informationen zur Verwendung AWS Glue zum Crawlen von Iceberg-Tabellen in Amazon S3 S3-Buckets und zur Registrierung der Iceberg-Tabellen im hinzugefügt. AWS Glue Data Catalog Weitere Informationen finden Sie unter Welche Datenspeicher kann ich crawlen? und Crawler-Eigenschaften.

07. Juli 2023

Support für AWS Glue mit Ray

Es wurden Informationen über AWS Glue with Ray hinzugefügt, eine neue Engine, die AWS Glue Jobs unterstützen kann. Bestehende Inhalte wurden AWS Glue mit Spark-Inhalten neu organisiert, um sie eindeutig zu verstehen.

30. Mai 2023

Support für AWS Glue Datenqualität (GA)

AWS Glue Data Quality ist jetzt allgemein verfügbar. AWS Glue Data Quality hilft Ihnen, die Qualität Ihrer Daten zu bewerten und zu überwachen. Informationen zur Verwendung von AWS Glue Data Quality mit Data Catalog finden Sie unter AWS Glue Datenqualität. Weitere Informationen zur AWS Glue Datenqualität für AWS Glue Studio finden Sie unter Evaluieren der Datenqualität mit AWS Glue Studio.

24. Mai 2023

Unterstützung für größere Worker-Typen für Apache Spark-Aufträge

Die Nutzung der G.4X- und G.8X-Worker-Typen für Apache Spark-Aufträge wird jetzt unterstützt. Diese Worker-Typen sind für Aufträge geeignet, deren Workloads Ihre anspruchsvollsten Transformationen, Aggregationen, Zusammenführungen und Abfragen enthalten. Weitere Informationen finden Sie unter Hinzufügen von Aufträgen in AWS Glue.

8. Mai 2023

Unterstützung für die Erstellung von Partitionsindizes beim Crawling von Tabellen

Es wurden Informationen darüber hinzugefügt, wie Crawler die Erstellung von Partitionsindizes für Tabellen unterstützen, die der Crawler erkennt. Weitere Informationen finden Sie unter Festlegen der Partitionsindex-Crawler-Konfigurationsoption.

24. April 2023

Unterstützung für Metriken zur Ressourcennutzung

Es wurden Informationen zur Anzeige der Ressourcennutzung des Dienstes und zur Konfiguration von Alarmen in Amazon hinzugefügt CloudWatch. Weitere Informationen finden Sie unter AWS Glue-Ressourcenüberwachung.

7. April 2023

Aktualisierung der AWSGlueConsoleFullAccess AWS verwalteten Richtlinie

Es wurden Informationen über ein geringfügiges Update der AWSGlueConsoleFullAccess AWS verwalteten Richtlinie hinzugefügt. Weitere Informationen finden Sie unter AWS GlueAktualisierungen der AWS verwalteten Richtlinien.

28. März 2023

Es wurde eine Anleitung zur Verwendung AWS Glue mit und AWS SDK mit Beispielen hinzugefügt

Das AWS Glue Entwicklerhandbuch enthält zwei neue Abschnitte, die Informationen zur Verwendung AWS Glue mit einem enthalten AWS SDK. Weitere Informationen finden Sie unter Verwenden AWS Glue mit einem AWS SDK und Codebeispiele für die AWS Glue Verwendung AWS SDKs.

23. Februar 2023

Aktualisierung der Dokumentation für IAM mit AWS Glue

Informationen zur Verwendung von IAM with AWS Glue wurden neu organisiert und hinzugefügt. Weitere Informationen finden Sie unter Identitäts- und Zugriffsverwaltung für AWS Glue.

15. Februar 2023

Support für die Ausführung von ETL Streaming-Jobs in AWS Glue Version 4.0

Es wurden Informationen zur Unterstützung für die Ausführung von ETL Streaming-Jobs in Glue Version 4.0 und neue Optionen für die Verbindung mit einem Kafka-Cluster oder einem Amazon Managed Streaming for Apache Kafka Kafka-Cluster und Amazon Kinesis Data Streams hinzugefügt. Weitere Informationen finden Sie unter Hinzufügen von ETL Streaming-Jobs in AWS Glue und Verbindungstypen und -optionen für in. ETL AWS Glue

8. Februar 2023

Unterstützung für das Crawling von MongoDB-Atlas-Datenquellen

Es wurden Informationen zur Verwendung AWS Glue zum Crawlen von MongoDB Atlas-Datenquellen hinzugefügt. Weitere Informationen finden Sie unter Welche Datenspeicher kann ich crawlen? , Verbindungseigenschaften von MongoDB und MongoDB Atlas und Verwenden einer MongoDB- oder MongoDB Atlas-Verbindung.

06. Februar 2023

Support für das Crawling von Delta-Lake-Tabellen mit einem nativen Delta-Lake-Konnektor

Es wurden Informationen zur Verwendung AWS Glue zum Crawlen von Delta Lake-Tabellen mithilfe eines nativen Delta Lake-Connectors hinzugefügt. Mit dieser Funktion können Sie AWS Abfrage-Engines verwenden, um das Delta-Transaktionsprotokoll direkt abzufragen und Funktionen wie Zeitreisen und ACID Garantien zu nutzen und Ihre Delta Lake-Metadaten aus Amazon S3 S3-Transaktionsdateien mit dem Datenkatalog zu synchronisieren, um Spaltenberechtigungen für Ihre Abfragen in Lake Formation zu aktivieren. Weitere Informationen finden Sie unter So geben Sie Konfigurationsoptionen für einen Delta Lake-Datenspeicher an und Abfragen von Delta-Lake-Tabellen.

15. Dezember 2022

Support für AWS Glue Datenqualität (Vorschau)

Support für AWS Glue Datenqualität (Vorschau) ist jetzt verfügbar. AWS Glue Data Quality hilft Ihnen, die Qualität Ihrer Daten zu bewerten und zu überwachen, wenn Sie AWS Glue 3.0 verwenden. Informationen zur Verwendung von AWS Glue Data Quality mit Data Catalog finden Sie unter AWS Glue Datenqualität (Vorschau). Weitere Informationen zur AWS Glue Datenqualität für AWS Glue Studio finden Sie unter Evaluieren der Datenqualität mit AWS Glue Studio.

30. November 2022

Support für einen neuen Amazon-Redshift-Spark-Konnektor mit neuen Features und Leistungsverbesserungen

Support ist jetzt verfügbar für einen neuen Amazon Redshift Spark-Konnektor mit einem neuen JDBC Treiber für AWS Glue ETL Jobs zur Erstellung von Apache Spark-Anwendungen, die als Teil Ihrer Datenaufnahme- und Transformationspipelines aus Daten in Amazon Redshift lesen und in Daten schreiben. Weitere Informationen finden Sie unter Verschieben von Daten zu und von Amazon Redshift.

29. November 2022

Support für AWS Glue-Version 4.0.

Zusätzliche Informationen über den Support für AWS Glue-Version 4.0. Zu den Features gehören native Unterstützung für Open-Data-Lake-Frameworks mit Apache Hudi, Delta Lake und Apache Iceberg sowie native Unterstützung für das Amazon-S3-basierte Cloud-Shuffle-Speicher-Plugin (ein Apache-Spark-Plugin) zur Verwendung von Amazon S3 für Shuffling und elastische Speicherkapazität. Weitere Informationen finden Sie unter AWS Glue-Versionshinweise und Migration von AWS Glue-Aufträgen zur AWS Glue-Version 4.0.

28. November 2022

AWS Glue Studio bietet jetzt benutzerdefinierte visuelle Transformationen

Mithilfe benutzerdefinierter visueller Transformationen können Kunden geschäftsspezifische Logik definieren, wiederverwenden und in ihren Teams gemeinsam nutzen. ETL Weitere Informationen finden Sie unter Benutzerdefinierte visuelle Transformationen .

28. November 2022

Support für die Verwendung des AWS Glue Crawlers zur Veröffentlichung von Metadaten für JDBC Datenspeicher

Die Verwendung des AWS Glue Crawlers zum Veröffentlichen von Metadaten wie Kommentaren und Rohtypen im Datenkatalog für JDBC Datenspeicher ist jetzt verfügbar. Weitere Informationen finden Sie unter Von Crawler in Datenkatalogtabellen festgelegte Parameter, Crawler-Eigenschaftenund Struktur. JdbcTarget

18. November 2022

Support für das Crawling von Snowflake-Datenspeichern

Support für die Verwendung von AWS Glue zum Crawlen von Snowflake-Tabellen und -Ansichten und zur Veröffentlichung der Metadaten im Data Catalog als Tabelleneintrag ist jetzt verfügbar. Bei externen Snowflake-Tabellen in Amazon S3 durchsucht der Crawler auch den Amazon-S3-Speicherort und den Dateiformattyp der externen Tabelle und füllt sie als Tabellenparameter aus. Weitere Informationen finden Sie unter Welche Datenspeicher kann ich crawlen?, AWS Glue-Verbindungseigenschaften und Vom Crawler für Data-Catalog-Tabellen festgelegte Parameter.

18. November 2022

Support für eine verbesserte Shuffle-Verwaltung Ihrer Spark-Anwendungen

Support für ein neues Cloud-Shuffle-Speicher-Plugin für Apache Spark ist jetzt verfügbar. Weitere Informationen finden Sie unter AWS Glue-Spark-Shuffle-Plugin mit Amazon S3 und Cloud-Shuffle-Speicher-Plugin für Apache Spark.

15. November 2022

Unterstützung für Data Catalog-Ziele beim Beschleunigen von Crawler Amazon S3-Ereignisbenachrichtigungen

Zusätzlich zur bestehenden Unterstützung für Amazon S3-Ziele ist jetzt Unterstützung für beschleunigte Crawls für Data Catalog-Ziele mithilfe von Amazon S3-Ereignisbenachrichtigungen verfügbar. Weitere Informationen finden Sie unter Beschleunigung von Crawls mithilfe von Amazon S3-Ereignisbenachrichtigungen.

13. Oktober 2022

Support für die Angabe der maximalen Anzahl von Tabellen, die ein Crawler erstellen kann

Ab sofort erhalten Sie Support für die Angabe der maximalen Anzahl von Tabellen, die der Crawler erstellen darf. Weitere Informationen erhalten Sie unter So geben Sie die maximale Anzahl von Tabellen an, die der Crawler erstellen darf.

6. September 2022

Unterstützung für Python 3.9 in Python-Shell-Aufträgen in AWS Glue

Die Ausführung von mit Python 3.9 kompatiblen Skripten in Python-Shell-Aufträgen in AWS Glue und die Verwendung von vorgefertigten Bibliothekssätzen wird jetzt unterstützt. Weitere Informationen finden Sie unter Python-Shell-Aufträge in AWS Glue.

11. August 2022

Support für die Ausführung nicht dringender oder nicht zeitkritischer AWS Glue Aufträge auf freier Kapazität

Die Konfiguration flexibler Ausführungen von Aufträgen für nicht dringende Aufträge, wie z. B. Vorproduktionsaufträge, Tests und einmalige Datenübertragungen, wird jetzt unterstützt. Weitere Informationen finden Sie unter Hinzufügen von Aufträgen in AWS Glue.

09. August 2022

Support für einen neuen Workertyp für Streaming-Aufträgen

Support für den Einsatz von G.025X-Worker-Typ für Streaming-Aufträgen mit geringem Volumen ist jetzt verfügbar. Weitere Informationen finden Sie unter Hinzufügen von Aufträgen in AWS Glue.

14. Juli 2022

Support für die Verwendung von Kafka SASL in Verbindungen AWS Glue

Support ist jetzt für die Verwendung von Kafka SASL in AWS Glue Verbindungen verfügbar. Weitere Informationen finden Sie unter AWS GlueKafka-Verbindungseigenschaften für die Client-Authentifizierung.

5. Juli 2022

Unterstützung von Apache Kafka Connector für Protobuf-Schemas

Die Unterstützung von Apache Kafka Connector für Protobuf-Schemas ist jetzt verfügbar. Weitere Informationen finden Sie unter AWS Glue Schema Registry.

9. Juni 2022

Unterstützung für Auto Scaling für AWS Glue-Aufträge (GA)

Informationen zur Verwendung von Auto Scaling für Aufträge in AWS Glue Version 3.0 zur dynamischen Skalierung von Computing-Ressourcen hinzugefügt. Weitere Informationen finden Sie unter Auto Scaling für AWS Glue verwenden.

14. April 2022

Aktualisierung der Dokumentation für AWS Glue-Entwickeln und -Testen von AWS Glue-Auftragsskripts

Neu strukturierte und zusätzliche Informationen über die verfügbaren Entwicklungs- und Testmethoden für AWS Glue, einschließlich Anweisungen für die Entwicklung mit Docker. Weitere Informationen finden Sie unter Entwickeln und Testen von AWS Glue-Auftragsskripts.

14. März 2022

Hinzufügen von Protokollpuffern (Protobuf) als unterstütztes Datenformat für das AWS Glue Schema Registry

Es wurden Informationen über Protobuf als unterstütztes Datenformat hinzugefügt (zusätzlich zu AVRO und). JSON Weitere Informationen finden Sie unter AWS Glue Schema Registry.

25. Februar 2022

Support für das Crawling von Delta Lake-Tabellen

Es wurden Informationen zur Verwendung AWS Glue zum Crawlen von Delta Lake-Tabellen hinzugefügt. Weitere Informationen finden Sie unter So geben Sie Konfigurationsoptionen für einen Delta-Lake-Datenspeicher an.

24. Februar 2022

Support für AWS Glue berufliche Einblicke

Es wurden Informationen zur Verwendung von AWS Glue Job Insights hinzugefügt, um das Debuggen und die Optimierung von Jobs für Ihre AWS Glue Jobs zu vereinfachen. Weitere Informationen finden Sie unter Überwachung mit AWS Glue-Auftragserkenntnissen.

8. Februar 2022

Support für das Crawlen von Amazon S3 S3-gestützten Datenkatalogtabellen mithilfe eines Endpunkts VPC

Zusätzlich zu Amazon S3 S3-Datenspeichern können Sie Ihre Amazon S3 S3-gestützten Data Catalog-Tabellen so konfigurieren, dass sie aus Sicherheits-, Prüf- oder Kontrollgründen nur von einer Amazon Virtual Private Cloud Cloud-Umgebung (AmazonVPC) abgerufen werden können. Weitere Informationen finden Sie unter Crawlen eines Amazon S3-Datenspeichers oder von Amazon S3 gestützten Datenkatalogtabellen mithilfe eines VPC Endpunkts.

3. Februar 2022

Support für von Lake Formation verwaltete Tabellen

Es wurden Informationen zur AWS Glue Unterstützung für von Lake Formation verwaltete Tabellen hinzugefügt, die ACID Transaktionen, automatische Datenkomprimierung und Zeitreiseabfragen unterstützen. Weitere Informationen finden Sie unter AWS GlueAPIund im AWS Lake Formation Entwicklerhandbuch.

30. November 2021

Neue AWS verwaltete Richtlinien für interaktive Sitzungen und Notizbücher hinzugefügt

Neue verwaltete Richtlinien IAM sorgen für mehr Sicherheit bei der Verwendung AWS Glue mit interaktiven Sitzungen und Notizbüchern. Weitere Informationen finden Sie unter AWS -verwaltete Richtlinien für AWS Glue.

30. November 2021

Glue Schema Registry wird jetzt mit Streaming-Aufträgen unterstützt

Sie können Streaming-Aufträge erstellen, die auf Tabellen zugreifen, die Teil des Glue Schema Registry sind. Weitere Informationen finden Sie unter AWS Glue Schemaregistrierung und Hinzufügen von ETL Streaming-Jobs unter AWS Glue.

15. November 2021

Support für neue Machine-Learning-Features

Es wurden Informationen über neue Features für die „Find matches“-Machine-Learning-Transformation hinzugefügt, einschließlich inkrementeller Übereinstimmung und Match-Scoring. Weitere Informationen finden Sie unter Inkrementelle Übereinstimmungen und Schätzen der Qualität von Übereinstimmungen mithilfe von Match-Konfidenzwerten.

31. Oktober 2021

(Private Vorschau) Unterstützung für AWS Glue-Flex-Aufträge

Informationen zum Konfigurieren von AWS Glue-Spark-Aufträgen mit einer flexiblen Ausführungsklasse hinzugefügt, die für zeitunabhängige Aufträge geeignet ist, deren Start- und Abschlusszeiten variieren können. Weitere Informationen finden Sie unter Hinzufügen von Aufträgen in AWS Glue.

29. Oktober 2021

Unterstützung für die Beschleunigung von Crawls mithilfe von Amazon S3-Ereignisbenachrichtigungen

Es wurden Informationen zur Beschleunigung von Crawls mithilfe von Amazon S3-Ereignisbenachrichtigungen hinzugefügt. Weitere Informationen finden Sie unter Beschleunigung von Crawls mithilfe von Amazon S3-Ereignisbenachrichtigungen.

15. Oktober 2021

Zusätzliche Sicherheitskonfigurationsoptionen im Zusammenhang mit der Zugriffskontrolle und VPCs

Es wurden Informationen zur Konfiguration neuer Zugriffsberechtigungen AWS Glue und zur Konfiguration von hinzugefügt. VPCs Weitere Informationen finden Sie unter AWSStichwörter in AWS Glue, Identitätsbasierte Richtlinien (IAMRichtlinien) zur Steuerung von Einstellungen mithilfe von Bedingungsschlüsseln oder Kontextschlüsseln und Konfiguration aller AWS Aufrufe für Ihre. VPC

13. Oktober 2021

Support für VPC Endpunktrichtlinien

Informationen zur Unterstützung von Virtual Private Cloud (VPC) -Endpunktrichtlinien wurden in hinzugefügtAWS Glue. Weitere Informationen finden Sie unter Endpoints AWS Glueund in der Schnittstelle VPC Endpoints (AWS PrivateLink).

11. Oktober 2021

Glue Studio ist jetzt in China verfügbar

AWS Glue Studio ist jetzt in den Regionen China Beijing und Ningxia verfügbar.

11. Oktober 2021

AWS Glue Studio bietet Notebook-Erstellung für die interaktive Auftragsbearbeitung

Notebooks unterstützen Sie beim Schreiben und Ausführen von Code, bei der Visualisierung der Ergebnisse und beim Austausch von Erkenntnissen. In der Regel verwenden Datenwissenschaftler Notebooks für Experimente und Aufgaben der Datenexploration. Weitere Informationen finden Sie unter Verwenden von Notebooks.

1. Oktober 2021

Direkter Zugriff auf Streaming-Quellen jetzt verfügbar

Wenn Sie Ihrem ETL Job im Visual Editor Datenquellen hinzufügen, können Sie Informationen für den Zugriff auf den Datenstrom angeben, anstatt eine Datenkatalogdatenbank und eine Tabelle verwenden zu müssen.

30. September 2021

Dokumentieren der Richtlinie zur AWS Glue-Versionsunterstützung

Hinzufügen von Informationen zur Richtlinie zur AWS Glue-Versionsunterstützung und die Lebensendephasen für bestimmte AWS Glue-Versionen. Weitere Informationen finden Sie unter Richtlinie zur AWS Glue-Versionsunterstützung.

24. September 2021

Benutzerdefinierte Konnektoren können jetzt mit Datenvorschauen verwendet werden

Wenn Sie den Datenquellenknoten mit einem benutzerdefinierten Konnektor bearbeiten, können Sie eine Vorschau des Datasets anzeigen, indem Sie die Registerkarte Dat-Vorschau wählen. Weitere Informationen finden Sie unter Benutzerdefinierte Konnektoren

24. September 2021

Support für AWS Glue interaktive Sitzungen (private Vorschau)

(Private Vorschau) Es wurden Informationen zur Verwendung AWS Glue interaktiver Sitzungen hinzugefügt, um Spark-Workloads in der Cloud von einem beliebigen Jupyter-Notebook aus auszuführen. Interaktive Sitzungen sind die bevorzugte Methode für die Entwicklung Ihres AWS Glue Extraktions-, Transformations- und Load (ETL) -Codes, wenn Sie 2.0 oder höher verwenden AWS Glue . Weitere Informationen finden Sie unter AWS Glue Interaktive Sitzungen für Jupyter Notebook einrichten und ausführen.

24. August 2021

Unterstützung für das Erstellen von Workflows aus Vorlagen (GA)

Es wurden Informationen zur Codierung gängiger Anwendungsfälle für Extrahieren, Transformieren und Laden (ETL) in Blueprints und zum anschließenden Erstellen von Workflows anhand von Blueprints hinzugefügt. Ermöglicht Datenanalysten die einfache Erstellung und Ausführung komplexer ETL Prozesse. Weitere Informationen finden Sie unter Durchführen komplexer ETL Aktivitäten mithilfe von Blueprints und Workflows in AWS Glue.

23. August 2021

Unterstützung für AWS Glue Version 3.0

Es wurden Informationen zur Unterstützung von AWS Glue Version 3.0 hinzugefügt, die das Apache Spark 3.0-Engine-Upgrade zur Ausführung von Apache ETL Spark-Jobs sowie andere Optimierungen und Upgrades unterstützt. Weitere Informationen finden Sie unter AWS Glue-Versionshinweise und Migration von AWS Glue-Aufträgen zur AWS Glue Version 3.0. Zu den weiteren Funktionen dieser Version gehören der AWS Glue Shuffle-Manager, ein SIMD vektorisiertes CSV Lesegerät und Katalogpartitionsprädikate. Weitere Informationen finden Sie unter AWS GlueSpark Shuffle Manager mit Amazon S3, Formatoptionen für ETL Eingaben und Ausgaben in AWS Glue und Serverseitiges Filtern mithilfe von Katalogpartitionsprädikaten.

18. August 2021

AWS GovCloud (US) Region

AWS Glue Studioist jetzt verfügbar in AWS GovCloud (US) Region

18. August 2021

Erstellung per Python-Shell in AWS Glue Studio verfügbar

Beim Erstellen eines neuen Auftrags können Sie nun einen Python-Shell-Auftrag erstellen. Weitere Informationen finden Sie unter Starten der Auftragserstellung und Bearbeiten von Python-Shell-Aufträgen in AWS Glue Studio.

13. August 2021

Support beim Starten eines Workflows mit einem EventBridge Amazon-Event

Es wurden Informationen darüber hinzugefügt, wie AWS Glue in einer ereignisgesteuerten Architektur als Ereigniskonsument fungieren kann. Weitere Informationen finden Sie unter Einen AWS GlueWorkflow mit einem EventBridge Amazon-Ereignis starten und EventBridge Ereignisse anzeigen, die einen Workflow gestartet haben.

14. Juli 2021

Hinzufügen von JSON als unterstütztem Datenformat für die AWS Glue Schemaregistrierung

Es wurden Informationen über JSON als unterstütztes Datenformat hinzugefügt (zusätzlich zuAVRO). Weitere Informationen finden Sie unter AWS Glue Schema Registry.

30. Juni 2021

Erstellen von AWS Glue-Streaming-Aufträgen ohne Data-Catalog-Tabelle

Die create_data_frame_from_optionsPython-Funktion oder getSourcefür Scala-Skripte unterstützen die Erstellung von ETL Streaming-Jobs, die direkt auf die Datenstreams verweisen, anstatt eine Datenkatalogtabelle zu benötigen.

15. Juni 2021

AWS GlueTransformationen für maschinelles Lernen unterstützen jetzt Schlüssel AWS Key Management Service

Sie können eine Sicherheitskonfiguration oder einen AWS KMS Schlüssel angeben, wenn Sie AWS Glue Machine-Learning-Transformationen mit der KonsoleCLI, dem oder dem AWS Glue APIs konfigurieren. Weitere Informationen finden Sie unter Verwenden von Datenverschlüsselung mit Machine-Learning-Transformationen und AWS GlueMachine Learning API.

15. Juni 2021

Aktualisierung der AWSGlueConsoleFullAccess AWS verwalteten Richtlinie

Es wurden Informationen über ein geringfügiges Update der AWSGlueConsoleFullAccess AWS verwalteten Richtlinie hinzugefügt. Weitere Informationen finden Sie unter AWS GlueAktualisierungen der AWS verwalteten Richtlinien.

10. Juni 2021

Anzeigen des Datensatzes Ihres Auftrags beim Bearbeiten und Erstellen von Aufträgen

Sie können die neue Registerkarte Data preview (Datenvorschau) für einen Knoten in Ihrem Auftragsdiagramm verwenden, um einen Auszug der von diesem Knoten verwendeten Daten anzusehen. Weitere Informationen finden Sie unter Verwenden von Datenvorschauen im visuellen Auftragseditor.

7. Juni 2021

Unterstützung für das Festlegen eines Werts, der den Speicherort der Tabelle für die Crawler-Ausgabe angibt.

Es wurden Informationen zum Festlegen eines Wertes hinzugefügt, der bei der Konfiguration der Crawler-Ausgabe den Speicherort der Tabelle angibt.. Weitere Informationen finden Sie unter Den Tabellenspeicherort festlegen.

4. Juni 2021

Unterstützung für das Crawling von Probedateien in einem Datensatz beim Crawling eines Amazon-S3-Datenspeichers

Informationen zum Crawling von Probedateien beim Crawling von Amazon S3 wurden hinzugefügt. Weitere Informationen finden Sie unter Crawler-Eigenschaften.

10. Mai 2021

Unterstützung für den mit AWS Glue optimierten Parquet-Writer

Es wurden Informationen zur Verwendung des AWS Glue optimierten Parquet Writers hinzugefügt DynamicFrames , um Tabellen mit der parquet Klassifizierung zu erstellen oder zu aktualisieren. Weitere Informationen finden Sie unter Erstellen von Tabellen, Aktualisieren des Schemas und Hinzufügen neuer Partitionen im Datenkatalog über AWS Glue ETL Jobs und Formatierungsoptionen für ETL Eingaben und Ausgaben in AWS Glue.

4. Mai 2021

Unterstützung für Kafka-Client-Authentifizierungspasswörter

Es wurden Informationen darüber hinzugefügt, wie ETL Streaming-Jobs die SSL Client-Zertifikatsauthentifizierung mit Apache Kafka-Stream-Producern AWS Glue unterstützen. Sie können nun ein benutzerdefiniertes Zertifikat bereitstellen, während eine AWS Glue-Verbindung zu einem Apache-Kafka-Cluster hergestellt wird, den AWS Glue zur Authentifizierung verwendet. Weitere Informationen finden Sie unter AWS GlueVerbindungseigenschaften und Verbindung API.

28. April 2021

Support für die Nutzung von Daten aus Amazon Kinesis Data Streams in einem anderen Konto bei Streaming-Jobs ETL

Es wurden Informationen zur Erstellung eines ETL Streaming-Auftrags hinzugefügt, um Daten aus Amazon Kinesis Data Streams in einem anderen Konto zu nutzen. Weitere Informationen finden Sie unter Hinzufügen von ETL Streaming-Jobs in AWS Glue.

30. März 2021

SQLTransformation verfügbar

Sie können einen SQLTransformationsknoten verwenden, um Ihre eigene Transformation in Form einer SQL Abfrage zu schreiben. Weitere Informationen finden Sie unter Verwenden einer SQL Abfrage zum Transformieren von Daten.

23. März 2021

Unterstützung für das Erstellen von Workflows aus Vorlagen (öffentliche Vorschau)

(Öffentliche Vorschau) Es wurden Informationen zur Codierung gängiger Anwendungsfälle zum Extrahieren, Transformieren und Laden (ETL) in Blueprints und zum anschließenden Erstellen von Workflows anhand von Blueprints hinzugefügt. Ermöglicht Datenanalysten die einfache Erstellung und Ausführung komplexer ETL Prozesse. Weitere Informationen finden Sie unter Durchführen komplexer ETL Aktivitäten mithilfe von Blueprints und Workflows in AWS Glue.

22. März 2021

Konnektoren können für Datenziele verwendet werden

Die Verwendung eines benutzerdefinierten AWS Marketplace Konnektors oder Connectors für Ihr Datenziel wird jetzt unterstützt. Weitere Informationen finden Sie unter Erstellen von Aufträgen mit benutzerdefinierten Konnektoren.

15. März 2021

Unterstützung von Metriken für die Spaltenbedeutung für AWS Glue-Machine-Learning-Transformationen

Informationen zum Anzeigen von Spaltenbedeutungsmetriken bei der Arbeit mit AWS Glue-Machine-Learning-Transformationen. Weitere Informationen finden Sie unter Arbeiten mit Machine-Learning-Transformationen in der AWS Glue-Konsole.

5. Februar 2021

Auftragsplanung ist jetzt in AWS Glue Studio verfügbar

Sie können einen Zeitplan für Ihre Auftragsläufe in AWS Glue Studio definieren. Sie können die Konsole verwenden, um einen einfachen Zeitplan zu erstellen oder einen komplexeren Zeitplan mit der UNIX-ähnlichen cron-Syntax definieren. Weitere Informationen finden Sie unter Planen von Auftragsausführungen.

21. Dezember 2020

Benutzerdefinierte AWS Glue-Konnektoren veröffentlicht

Benutzerdefinierte AWS Glue-Konnektoren ermöglichen das Erkennen und Abonnieren von Konnektoren auf dem AWS Marketplace. Wir haben auch AWS Glue Spark-Laufzeitschnittstellen zum Anschließen von Konnektoren veröffentlicht, die für Apache Spark Datasource, Athena Federated Query und entwickelt wurden. JDBC APIs Weitere Informationen finden Sie unter Verwenden von Konnektoren und Verbindungen mit AWS Glue Studio.

21. Dezember 2020

Support für die Ausführung von ETL Streaming-Jobs in AWS Glue Version 2.0

Es wurden Informationen zur Unterstützung für die Ausführung von ETL Streaming-Jobs in Glue Version 2.0 hinzugefügt. Weitere Informationen finden Sie unter Hinzufügen von ETL Streaming-Jobs in AWS Glue.

18. Dezember 2020

Unterstützung für die Workload-Partitionierung mit begrenzter Ausführung

Es wurden Informationen zur Aktivierung der Workload-Partitionierung hinzugefügt, um die Obergrenzen für die Datensatzgröße oder die Anzahl der bei ETL Jobausführungen verarbeiteten Dateien zu konfigurieren. Weitere Informationen finden Sie unter Workload-Partitionierung mit begrenzter Ausführung.

23. November 2020

Unterstützung für die erweiterte Partitionsverwaltung

Es wurden Informationen zur Verwendung von new hinzugefügt, APIs um einen Partitionsindex zu einer vorhandenen Tabelle hinzuzufügen oder daraus zu löschen. Weitere Informationen finden Sie unter Arbeiten mit Indizes.

23. November 2020

Unterstützung für die AWS Glue Schema Registry

Informationen zur Verwendung der AWS Glue Schema Registry hinzugefügt, um Schemas zentral zu entdecken, zu steuern und weiterzuentwickeln. Weitere Informationen finden Sie unter AWS Glue Schema Registry.

19. November 2020

Support für das Grok-Eingabeformat bei Streaming-Jobs ETL

Informationen zum Anwenden von Grok-Mustern auf Streaming-Quellen wie Protokolldateien wurden hinzugefügt. Weitere Informationen finden Sie unter Anwenden von Grok-Mustern auf Streaming-Quellen.

17. November 2020

Unterstützung für das Hinzufügen von Tags zu Workflows in der AWS Glue-Konsole

Informationen zum Hinzufügen von Tags beim Erstellen eines Workflows mit der AWS Glue-Konsole. Weitere Informationen finden Sie unter Erstellen und Aufbauen eines Workflows in der AWS Glue-Konsole.

27. Oktober 2020

Unterstützung für inkrementelles Ausführen von Crawlern

Es wurden Informationen zur Unterstützung des inkrementellen Ausführens von Crawlern hinzugefügt, bei denen das Crawling nur für Amazon-S3-Ordner ausgeführt wird, die seit der letzten Ausführung hinzugefügt wurden. Weitere Informationen finden Sie unter inkrementelles Crawling.

21. Oktober 2020

Support für Schemaerkennung für ETL Streaming-Datenquellen. Unterstützung für ETL Avro-Streaming-Datenquellen und selbstverwaltetes Kafka

Streaming-Jobs zum Extrahieren, Transformieren und Laden (ETL) AWS Glue können jetzt automatisch das Schema eingehender Datensätze erkennen und Schemaänderungen pro Datensatz verarbeiten. Selbstverwaltete Kafka-Datenquellen werden jetzt unterstützt. ETLStreaming-Jobs unterstützen jetzt das Avro-Format in Datenquellen. Weitere Informationen finden Sie unter ETLEinstreamen AWS Glue, Definieren von Auftragseigenschaften für einen ETL Streaming-Job und Hinweise und Einschränkungen für Avro-Streaming-Quellen.

7. Oktober 2020

Unterstützung für das Crawling von MongoDB- und DocumentDB-Datenquellen

Es wurden Informationen zur Unterstützung für das Crawling MongoDB- und Amazon-DocumentDB-Datenquellen (mit MongoDB-Kompatibilität) hinzugefügt. Weitere Informationen finden Sie unter Definieren von Crawlern.

5. Oktober 2020

Support bei der FIPS Einhaltung von Vorschriften

Es wurden Informationen zu FIPS Endpunkten für Kunden hinzugefügt, die FIPS 140-2 validierte kryptografische Module für den Zugriff auf Daten mit benötigen. AWS Glue Weitere Informationen finden Sie unter Compliance. FIPS

23. September 2020

AWS Glue Studio bietet eine einfach zu bedienende visuelle Oberfläche zum Erstellen und Überwachen von Aufträgen

Sie können jetzt eine einfache grafikbasierte Schnittstelle verwenden, um Aufträge zu erstellen, die Daten verschieben, transformieren und auf AWS Glue ausführen. Anschließend können Sie das Dashboard zur Auftragsausführung verwendenAWS Glue Studio, um die ETL Ausführung zu überwachen und sicherzustellen, dass Ihre Jobs wie vorgesehen funktionieren. Weitere Informationen finden Sie im AWS Glue Studio-Benutzerhandbuch.

23. September 2020

Unterstützung für das Erstellen von Tabellenindizes zur Verbesserung der Abfrageleistung

Es wurden Informationen zum Erstellen von Tabellenindizes hinzugefügt, mit denen Sie eine Teilmenge der Partitionen aus einer Tabelle abrufen können. Weitere Informationen finden Sie unter Arbeiten mit Indizes.

9. September 2020

Support für kürzere Startzeiten beim Ausführen von Apache ETL Spark-Jobs in AWS Glue Version 2.0.

Es wurden Informationen zur Unterstützung für AWS Glue Version 2.0 hinzugefügt, die eine verbesserte Infrastruktur für die Ausführung von Apache ETL Spark-Jobs mit kürzeren Startzeiten, Änderungen in der Protokollierung und Unterstützung für die Angabe zusätzlicher Python-Module auf Jobebene bietet. Weitere Informationen finden Sie in den AWS GlueVersionshinweisen und unter ETL Spark-Jobs mit reduzierten Startzeiten ausführen.

10. August 2020

Unterstützung für die Begrenzung der Anzahl gleichzeitiger Workflow-Ausführungen

Es wurden Informationen zur Begrenzung der Anzahl gleichzeitiger Workflow-Ausführungen für einen bestimmten Workflow hinzugefügt. Weitere Informationen finden Sie unter Erstellen und Aufbauen eines Workflows in der AWS Glue-Konsole.

10. August 2020

Support für das Crawlen eines Amazon S3 S3-Datenspeichers mithilfe eines Endpunkts VPC

Es wurden Informationen zur Konfiguration Ihres Amazon S3 S3-Datenspeichers für Sicherheits-, Prüf- oder Kontrollzwecke hinzugefügt, sodass er nur von einer Amazon Virtual Private Cloud Cloud-Umgebung (AmazonVPC) abgerufen werden kann. Weitere Informationen finden Sie unter Crawlen eines Amazon S3 S3-Datenspeichers mithilfe eines VPC Endpunkts.

7. August 2020

Unterstützung für die Fortsetzung der Workflow-Ausführung

Es wurden Informationen zum Fortsetzen von Workflow-Ausführungen hinzugefügt, die nur teilweise abgeschlossen wurden, da ein oder mehrere Knoten (Aufträge oder Crawler) nicht erfolgreich abgeschlossen wurden. Weitere Informationen finden Sie unter Reparieren und Fortsetzen einer Workflow-Ausführung.

27. Juli 2020

Unterstützung für das Aktivieren privater CA-Zertifikate in Kafka-Verbindungen in AWS Glue.

Es wurden Informationen zu neuen Verbindungsoptionen hinzugefügt, die das Aktivieren privater CA-Zertifikate für Kafka-Verbindungen in AWS Glue unterstützen. Weitere Informationen finden Sie unter Verbindungstypen und Optionen für ETL in AWS Glue und spezielle Parameter, die von AWS Glue verwendet werden.

20. Juli 2020

Unterstützung für das Lesen von DynamoDB-Daten in einem anderen Konto

Informationen zur AWS Glue-Unterstützung für das Lesen von Daten aus der DynamoDB-Tabelle eines anderen AWS -Kontos hinzugefügt. Weitere Informationen finden Sie unter Lesen von DynamoDB Daten in einem anderen Konto.

17. Juli 2020

Unterstützung für eine DynamoDB-Writer-Verbindung ab AWS Glue Version 1.0

Informationen zur Unterstützung von DynamoDB-Writer sowie neue oder aktualisierte Verbindungsoptionen für DynamoDB zum Lesen oder Schreiben hinzugefügt. Weitere Informationen finden Sie unter Verbindungstypen und Optionen für ETL in AWS Glue.

17. Juli 2020

Unterstützung für Ressourcen-Links und kontoübergreifende Zugriffskontrolle mithilfe von AWS Glue und Lake Formation

Inhalte zu neuen Data-Catalog-Objekten, die als Ressourcen-Links bezeichnet werden, und zum Verwalten der gemeinsamen, kontenübergreifenden Nutzung von Data-Catalog-Ressourcen mit AWS Glue und AWS Lake Formation. Weitere Informationen finden Sie unter Gewährung von kontenübergreifendem Zugriff und Ressourcen-Links zu Tabellen.

7. Juli 2020

Unterstützung für das beispielhafte Abfragen von Datensätzen beim Crawling von DynamoDB-Datenspeichern

Es wurden Informationen zu neuen Eigenschaften hinzugefügt, die Sie beim Crawling eines DynamoDB-Datenspeichers konfigurieren können. Weitere Informationen finden Sie unter Crawler-Eigenschaften.

12. Juni 2020

Unterstützung für das Anhalten einer Workflow-Ausführung

Es wurden Informationen zum Beenden einer Workflow-Ausführung für einen bestimmten Workflow hinzugefügt. Weitere Informationen finden Sie unter Anhalten einer Workflow-Ausführung.

14. Mai 2020

Support für ETL Spark-Streaming-Jobs

Es wurden Informationen zum Erstellen von Extraktions-, Transformations- und Load (ETL) -Jobs mit Streaming-Datenquellen hinzugefügt. Weitere Informationen finden Sie unter Hinzufügen von ETL Streaming-Jobs in AWS Glue.

27. April 2020

Support für das Erstellen von Tabellen, das Aktualisieren des Schemas und das Hinzufügen neuer Partitionen im Datenkatalog nach der Ausführung eines ETL Jobs

Es wurden Informationen darüber hinzugefügt, wie Sie das Erstellen von Tabellen, das Aktualisieren des Schemas und das Hinzufügen neuer Partitionen aktivieren können, um die Ergebnisse Ihres ETL Jobs im Datenkatalog zu sehen. Weitere Informationen finden Sie unter Tabellen erstellen, Schema aktualisieren und neue Partitionen aus AWS Glue ETL Jobs zum Datenkatalog hinzufügen.

2. April 2020

Support für die Angabe einer Version für das Apache Avro-Datenformat als ETL Eingabe und Ausgabe in AWS Glue

Es wurden Informationen zur Angabe einer Version für das Apache Avro-Datenformat als ETL Eingabe und Ausgabe in hinzugefügt. AWS Glue Die Standardversion: 1.7. Mit der Formatoption version können Sie Avro Version 1.8 angeben, um das Lesen/Schreiben logischer Typen zu aktivieren. Weitere Informationen finden Sie unter Formatoptionen für ETL Eingaben und Ausgaben in AWS Glue.

31. März 2020

Support für den EMRFS S3-optimierten Committer zum Schreiben von Parquet-Daten in Amazon S3

Es wurden Informationen darüber hinzugefügt, wie ein neues Flag gesetzt werden kann, damit der EMRFR S3-optimierte Committer beim Erstellen oder Aktualisieren eines Jobs Parquet-Daten in Amazon S3 schreiben kann. AWS Glue Weitere Informationen finden Sie unter Spezielle Parameter, die von AWS Glue verwendet werden.

30. März 2020

Die Support für maschinelles Lernen wird zu einer Ressource, die durch AWS Ressourcen-Tags verwaltet wird

Es wurden Informationen zur Verwendung von AWS Ressourcen-Tags zur Verwaltung und Steuerung des Zugriffs auf Ihre maschinellen Lerntransformationen in hinzugefügt. AWS Glue Sie können Jobs, Triggern, Endpunkten, Crawlern und Transformationen für maschinelles Lernen AWS Ressourcen-Tags zuweisen. AWS Glue Weitere Informationen finden Sie unter AWS -Tags in AWS Glue.

2. März 2020

Unterstützung für nicht überschreibbare Auftragsargumente

Es wurden Informationen zur Unterstützung spezieller Aufgabenparameter hinzugefügt, die weder in Auslösern noch beim Ausführen der Aufgabe überschrieben werden können. Weitere Informationen finden Sie unter Hinzufügen von Aufträgen in AWS Glue.

12. Februar 2020

Unterstützung für neue Transformationen für die Arbeit mit Datensätzen in Amazon S3

Es wurden Informationen zu neuen Transformationen (Merge, Purge und Transition) und Amazon-S3-Speicherklassenausschlüssen hinzugefügt, damit Apache-Spark-Anwendungen mit Datensätzen in Amazon S3 arbeiten können. Weitere Informationen zur Unterstützung dieser Transformationen für Python finden Sie unter mergeDynamicFrameund Working with Datasets in Amazon S3. Informationen zu Scala finden Sie unter mergeDynamicFramesund Scala. AWS Glue GlueContext APIs

16. Januar 2020

Support für die Aktualisierung des Datenkatalogs mit neuen Partitionsinformationen aus einem ETL Job

Es wurden Informationen zum Codieren eines Skripts zum Extrahieren, Transformieren und Laden (ETL) hinzugefügt, um das AWS Glue Data Catalog mit neuen Partitionsinformationen zu aktualisieren. Mit diesem Feature müssen Sie den Crawler nach Abschluss des Auftrags nicht mehr erneut ausführen, um die neuen Partitionen anzuzeigen. Weitere Informationen finden Sie unter Aktualisieren von Data Catalog mit neuen Partitionen.

15. Januar 2020

Neues Tutorial: Ein SageMaker Notizbuch verwenden

Es wurde ein Tutorial hinzugefügt, das zeigt, wie Sie ein SageMaker Amazon-Notizbuch verwenden können, um Ihre Skripte ETL und Skripts für maschinelles Lernen zu entwickeln. Siehe Tutorial: Verwenden Sie ein SageMaker Amazon-Notebook mit Ihrem Entwicklungsendpunkt.

3. Januar 2020

Unterstützung für das Lesen aus MongoDB und Amazon DocumentDB (mit MongoDB-Kompatibilität)

Es wurden Informationen über neue Verbindungstypen und Verbindungsoptionen zum Lesen aus und Schreiben in MongoDB und Amazon DocumentDB (mit MongoDB-Kompatibilität) hinzugefügt. Weitere Informationen finden Sie unter Verbindungstypen und Optionen für ETL in AWS Glue.

17. Dezember 2019

Verschiedene Korrekturen und Klärungen

Überall wurden Korrekturen und Klärungen hinzugefügt. Einträge aus dem Kapitel „Bekannte Probleme“ wurden entfernt. Es wurden Warnungen hinzugefügt, die nur symmetrische Kundenhauptschlüssel (CMKs) AWS Glue unterstützen, wenn Verschlüsselungseinstellungen für den Datenkatalog angegeben und Sicherheitskonfigurationen erstellt werden. Es wurde eine Notiz hinzugefügt, dass AWS Glue das Schreiben zu Amazon DynamoDB nicht unterstützt.

9. 2019. Dezember 2019

Support für benutzerdefinierte JDBC Treiber

Es wurden Informationen zum Herstellen von Verbindungen zu Datenquellen und Zielen mit JDBC Treibern hinzugefügt, die AWS Glue nicht nativ unterstützt werden, z. B. My SQL Version 8 und Oracle Database Version 18. Weitere Informationen finden Sie unter JDBC connectionType Werte.

25. November 2019

Support für die Verbindung von SageMaker Notebooks mit verschiedenen Entwicklungsendpunkten

Es wurden Informationen darüber hinzugefügt, wie Sie ein SageMaker Notebook mit verschiedenen Entwicklungsendpunkten verbinden können. Aktualisierungen zur Beschreibung der neuen Konsolenaktion für den Wechsel zu einem neuen Entwicklungsendpunkt und zur neuen SageMaker IAM Richtlinie. Weitere Informationen finden Sie unter Arbeiten mit Notizbüchern auf der AWS Glue Konsole und Erstellen einer IAM Richtlinie für Amazon SageMaker Notebooks.

21. November 2019

Unterstützung für die AWS Glue-Version in Machine-Learning-Transformationen

Hinzufügung von Informationen zur Definition der AWS Glue-Version in einer Machine-Learning-Transformation, um anzugeben, mit welcher Version von AWS Glue eine Machine-Learning-Transformation kompatibel ist. Weitere Informationen finden Sie unter Arbeiten mit Machine-Learning-Transformationen in der AWS Glue-Konsole.

21. November 2019

Unterstützung für das Zurückspulen Ihrer Auftragslesezeichen

Es wurden Informationen zum Zurückspulen Ihrer Auftragslesezeichen zu jeder beliebigen vorherigen Auftragsausführung hinzugefügt, was dazu führt, dass die nachfolgende Auftragsausführung nur Daten aus der mit dem Lesezeichen versehenen Auftragsausführung neu verarbeitet. Beschrieben werden zwei neue Unteroptionen für die job-bookmark-pause-Option, mit denen Sie einen Auftrag zwischen zwei Lesezeichen ausführen können. Weitere Informationen finden Sie unter Verfolgung verarbeiteter Daten anhand von Auftragslesezeichen und Spezielle Parameter, die von AWS Glue verwendet werden.

22. Oktober 2019

Support für benutzerdefinierte JDBC Zertifikate für die Verbindung zu einem Datenspeicher

Es wurden Informationen zur AWS Glue Unterstützung von benutzerdefinierten JDBC Zertifikaten für SSL Verbindungen zu AWS Glue Datenquellen oder Zielen hinzugefügt. Weitere Informationen finden Sie unter Arbeiten mit Verbindungen in der AWS Glue-Konsole.

10. Oktober 2019

Unterstützung für Python Wheel

Hinzufügung von Informationen zur AWS Glue-Unterstützung von Wheel-Dateien (zusammen mit EGG-Dateien) als Abhängigkeiten für Python-Shell-Aufträge. Weitere Informationen finden Sie unter Bereitstellen Ihrer eigenen Python-Bibliothek.

26. September 2019

Unterstützung für das Versioning von Entwicklungsendpunkten in AWS Glue

Hinzufügung von Informationen zum Definieren der Glue version in Entwicklungsendpunkten. Glue version bestimmt die Versionen von Apache Spark und Python, die AWS Glue unterstützt. Weitere Informationen finden Sie unter Hinzufügen eines Entwicklungsendpunkts.

19. September 2019

Unterstützung für die Überwachung von AWS Glue über die Spark-Benutzeroberfläche

Es wurden Informationen zur Verwendung der Apache Spark-Benutzeroberfläche zum Überwachen und Debuggen von AWS Glue ETL Jobs, die auf dem AWS Glue Jobsystem ausgeführt werden, und von Spark-Anwendungen auf AWS Glue Entwicklungsendpunkten hinzugefügt. Weitere Informationen finden Sie unter Überwachen von AWS Glue über die Spark-Benutzeroberfläche.

19. September 2019

Verbesserung der Unterstützung für die lokale ETL Skriptentwicklung mithilfe der öffentlichen Bibliothek AWS Glue ETL

Der Inhalt der AWS Glue ETL Bibliothek wurde aktualisiert, um widerzuspiegeln, dass AWS Glue Version 1.0 jetzt unterstützt wird. Weitere Informationen finden Sie unter Lokales Entwickeln und Testen von ETL Skripts mithilfe der AWS Glue ETL Bibliothek.

18. September 2019

Unterstützung für das Ausschließen von Amazon-S3-Speicherklassen bei der Ausführung von Aufträgen

Es wurden Informationen zum Ausschluss von Amazon S3-Speicherklassen hinzugefügt, wenn AWS Glue ETL Jobs ausgeführt werden, die Dateien oder Partitionen aus Amazon S3 lesen. Weitere Informationen finden Sie unter Ausschließen von Amazon-S3-Speicherklassen.

29. August 2019

Support für die lokale ETL Skriptentwicklung mithilfe der öffentlichen AWS Glue ETL Bibliothek

Es wurden Informationen hinzugefügt, wie Python- und ETL Scala-Skripte lokal entwickelt und getestet werden können, ohne dass eine Netzwerkverbindung erforderlich ist. Weitere Informationen finden Sie unter Lokales Entwickeln und Testen von ETL Skripten mithilfe der AWS Glue ETL Bibliothek.

28. August 2019

Bekannte Probleme

Es wurden Informationen zu bekannten Problemen in AWS Glue hinzugefügt. Weitere Informationen finden Sie unter Bekannte Probleme für AWS Glue.

28. August 2019

Unterstützung für Machine-Learning-Transformationen in AWS Glue

Es wurden Informationen zu den Machine Learning-Funktionen hinzugefügt, die von AWS Glue bereitgestellt werden, um benutzerdefinierte Transformationen zu erstellen. Sie können diese Transformationen erstellen, wenn Sie einen Auftrag erstellen. Weitere Informationen zu Machine Learning-Transformationen finden Sie unter Machine Learning-Transformationen in AWS Glue.

8. August 2019

Unterstützung für gemeinsam genutzte Amazon Virtual Private Clouds

Informationen zum AWS Glue-Support für freigegebene Amazon Virtual Private Cloud hinzugefügt. Weitere Informationen finden Sie unter Shared Amazon VPCs.

6. August 2019

Unterstützung für Versioning in AWS Glue

Hinzufügung von Informationen zum Definieren der Glue version in den Auftragseigenschaften. AWS Glue bestimmt die Versionen von Apache Spark und Python, die AWS Glue unterstützt. Weitere Informationen finden Sie unter Hinzufügen von Aufträgen in AWS Glue.

24. Juli 2019

Unterstützung für zusätzliche Konfigurationsoptionen für Entwicklungsendpunkte

Es wurden Informationen zu Konfigurationsoptionen für Entwicklungsendpunkte mit speicherintensiven Workloads hinzugefügt. Sie haben die Wahl zwischen zwei neuen Konfigurationen, die mehr Speicher pro Executor bieten. Weitere Informationen finden Sie unter Arbeiten mit Entwicklungsendpunkten in der AWS Glue-Konsole.

24. Juli 2019

Support für die Durchführung von Extraktions-, Übertragungs- und Load (ETL) -Aktivitäten mithilfe von Workflows

Es wurden Informationen zur Verwendung eines neuen Konstrukts hinzugefügt, das als Workflow bezeichnet wird, um eine komplexe Extraktions-, Transformations- und Load (ETL) -Aktivität mit mehreren Jobs zu entwerfen, die als eine einzige Einheit ausgeführt und verfolgt werden AWS Glue kann. Weitere Informationen finden Sie unter Durchführen komplexer ETL Aktivitäten mithilfe von Workflows in AWS Glue.

20. Juni 2019

Unterstützung für Python 3.6 in Python-Shell-Aufträgen

Informationen zur Unterstützung für Python 3.6 in Python-Shell-Aufträgen hinzugefügt. Sie können entweder Python 2.7 oder Python 3.6 als Auftragseigenschaft angeben. Weitere Informationen finden Sie unter Hinzufügen von Python-Shell-Aufträgen in AWS Glue.

5. Juni 2019

Support für virtuelle private Cloud (VPC) -Endpunkte

Es wurden Informationen zur AWS Glue direkten Verbindung mit einem Schnittstellen-Endpunkt in Ihrem VPC hinzugefügt. Wenn Sie einen VPC Schnittstellenendpunkt verwenden, AWS Glue erfolgt die Kommunikation zwischen Ihrem VPC und Ihrem Partner vollständig und sicher innerhalb des AWS Netzwerks. Weitere Informationen finden Sie unter Verwendung AWS Glue mit VPC Endpunkten.

4. Juni 2019

Unterstützung für die kontinuierliche Echtzeitprotokollierung für AWS Glue-Aufträge

Es wurden Informationen zur Aktivierung und Anzeige von Apache Spark-Jobprotokollen in Echtzeit hinzugefügt, CloudWatch einschließlich der Treiberprotokolle, der einzelnen Executor-Protokolle und eines Spark-Job-Fortschrittsbalkens. Weitere Informationen finden Sie unter Continuous Logging for AWS Glue Jobs.

28. Mai 2019

Unterstützung für vorhandene Data-Catalog-Tabellen als Crawler-Quellen

Es wurden Informationen zum Angeben einer Liste von vorhandenen Data-Catalog-Tabellen als Crawler-Quellen hinzugefügt. Crawler können dann Änderungen an Tabellen-Schemata erkennen, Tabellendefinitionen aktualisieren und neue Partitionen registrieren, wenn neue Daten verfügbar werden. Weitere Informationen finden Sie unter Crawler-Eigenschaften.

10. Mai 2019

Unterstützung für zusätzliche Konfigurationsoptionen für speicherintensive Aufträge

Zusätzliche Informationen zu den Konfigurationsoptionen für Apache-Spark-Aufgaben mit speicherintensiven Workloads. Sie haben die Wahl zwischen zwei neuen Konfigurationen, die mehr Speicher pro Executor bieten. Weitere Informationen finden Sie unter Hinzufügen von Aufträgen in AWS Glue.

5. April 2019

Support für CSV benutzerdefinierte Klassifikatoren

Es wurden Informationen zur Verwendung eines benutzerdefinierten CSV Klassifikators hinzugefügt, um das Schema verschiedener Datentypen abzuleiten. CSV Weitere Informationen finden Sie unter Schreiben benutzerdefinierter Classifier.

26. März 2019

Support für AWS Ressourcen-Tags

Es wurden Informationen zur Verwendung von AWS Ressourcen-Tags hinzugefügt, mit denen Sie den Zugriff auf Ihre AWS Glue Ressourcen verwalten und kontrollieren können. In können Sie Jobs, Triggern, Endpunkten und Crawlern AWS Ressourcen-Tags zuweisen. AWS Glue Weitere Informationen finden Sie unter AWS -Tags in AWS Glue.

20. März 2019

Support von Data Catalog für SQL Spark-Jobs

Es wurden Informationen zur Konfiguration Ihrer AWS Glue Jobs und Entwicklungsendpunkte für die Verwendung AWS Glue Data Catalog als externen Apache Hive Metastore hinzugefügt. Auf diese Weise können Jobs und Entwicklungsendpunkte Apache SQL Spark-Abfragen direkt für die in der gespeicherten Tabellen ausführen. AWS Glue Data Catalog Weitere Informationen finden Sie unter AWS Glue Data Catalog Support für SQL Spark-Jobs.

14. März 2019

Unterstützung für Python-Shell-Aufträge

Hinzufügung von Informationen zu Python-Shell-Aufträgen und zum neuen Feld Maximum capacity (Maximale Kapazität). Weitere Informationen finden Sie unter Hinzufügen von Python-Shell-Aufträgen in AWS Glue.

18. Januar 2019

Unterstützung für Benachrichtigungen zu Änderungen bei Datenbanken und Tabellen

Es wurden Informationen über Ereignisse hinzugefügt, die bei Änderungen an Datenbank-, Tabellen- und API Partitionsaufrufen generiert werden. Sie können unter CloudWatch Ereignisse Aktionen konfigurieren, um auf diese Ereignisse zu reagieren. Weitere Informationen finden Sie unter Automatisieren AWS Glue mit CloudWatch Ereignissen.

16. Januar 2019

Unterstützung für die Verschlüsselung von Verbindungspasswörtern

Es wurden zusätzliche Informationen zum Verschlüsseln von Passwörtern, die in Verbindungsobjekten verwendet werden, hinzugefügt. Weitere Informationen finden Sie unter Verbindungspasswörter.

11. Dezember 2018

Unterstützung für Berechtigungen auf Ressourcenebene und ressourcenbasierte Richtlinien

Informationen über die Verwendung von Berechtigungen auf Ressourcenebene und ressourcenbasierten Richtlinien mit AWS Glue wurden hinzugefügt. Weitere Informationen finden Sie in den Themen unter Sicherheit in AWS Glue.

15. Oktober 2018

Support für SageMaker Notebooks

Es wurden Informationen zur Verwendung von SageMaker Notebooks mit AWS Glue Entwicklungsendpunkten hinzugefügt. Weitere Informationen finden Sie unter Verwalten von Notebooks.

5. Oktober 2018

Unterstützung für Verschlüsselung

Zusätzliche Informationen zur Verwendung von Verschlüsselung mit AWS Glue. Weitere Informationen finden Sie unter Verschlüsselung im Ruhezustand, Verschlüsselung während der Übertragung und Einrichten der Verschlüsselung in AWS Glue.

24. August 2018

Unterstützung für Apache-Spark-Auftragsmetriken

Es wurden Informationen zur Verwendung von Apache Spark-Metriken für ein besseres Debugging und die Profilerstellung von Jobs hinzugefügt. ETL Von der Konsole aus können Sie auf einfache Weise Laufzeitmetriken wie gelesene und geschriebene Byte, Speichernutzung und CPU Auslastung des Treibers und der Executoren sowie Datenaustausch zwischen Executoren verfolgen. AWS Glue Weitere Informationen finden Sie unter Überwachung AWS Glue mithilfe von CloudWatch Metriken, Job-Überwachung und Debugging und Arbeiten mit Jobs auf der AWS Glue Konsole.

13. Juli 2018

Unterstützung von DynamoDB als Datenquelle

Es wurden Informationen zum Crawlen von DynamoDB und zur Verwendung als Datenquelle für Jobs hinzugefügt. ETL Weitere Informationen finden Sie unter Katalogisieren von Tabellen mit einem Crawler und Verbindungsparameter.

10. Juli 2018

Aktualisierungen zum Verfahren für das Erstellen des Notebook-Servers

Aktualisierte Informationen zum Erstellen eines Notebook-Servers auf einer EC2 Amazon-Instance, die mit einem Entwicklungsendpunkt verknüpft ist. Weitere Informationen finden Sie unter Erstellen eines Notebook-Servers, der einem Entwicklungsendpunkt zugeordnet ist.

9. Juli 2018

Updates sind jetzt verfügbar über RSS

Sie können jetzt einen RSS Feed abonnieren, um Benachrichtigungen über Aktualisierungen des AWS Glue Entwicklerhandbuchs zu erhalten.

25. Juni 2018

Unterstützung für Benachrichtigungen zu Auftragsverzögerungen

Informationen zum Konfigurieren eines Verzögerungsschwellenwerts beim Ausführen eines Auftrags hinzugefügt. Weitere Informationen finden Sie unter Hinzufügen von Aufträgen in AWS Glue.

25. Mai 2018

Konfigurieren eines Crawlers zum Anhängen neuer Spalten

Es wurden Informationen zur neuen Konfigurationsoption für Crawler hinzugefügt, MergeNewColumns. Weitere Informationen finden Sie unter Konfigurieren eines Crawlers.

7. Mai 2018

Unterstützung der Zeitüberschreitung bei Aufträgen

Informationen zum Einrichten eines Timeout-Schwellenwerts beim Ausführen eines Auftrags hinzugefügt. Weitere Informationen finden Sie unter Hinzufügen von Aufträgen in AWS Glue.

10. April 2018

Support ETL Scala-Skript und löst Jobs basierend auf zusätzlichen Ausführungsstatus aus

Es wurden Informationen zur Verwendung von Scala als ETL Programmiersprache hinzugefügt. Außerdem unterstützt der Trigger API jetzt das Auslösen, wenn alle Bedingungen erfüllt sind (zusätzlich zu allen Bedingungen). Außerdem können Aufträge basierend auf einer "fehlerhaften" oder "angehaltenen" Auftragsausführung ausgelöst werden (zusätzlich zu einer "erfolgreichen" Auftragsausführung).

12. Januar 2018

Frühere Aktualisierungen

In der folgenden Tabelle sind die wichtigen Änderungen in jeder Version des AWS Glue-Entwicklerhandbuchs vor Januar 2018 beschrieben.

Änderung Beschreibung Datum
Support XML von Datenquellen und neue Crawler-Konfigurationsoption Es wurden Informationen zur Klassifizierung von XML Datenquellen und zur neuen Crawler-Option für Partitionsänderungen hinzugefügt. 16. November 2017
Neue Transformationen, Unterstützung für zusätzliche RDS Amazon-Datenbank-Engines und Verbesserungen an Entwicklungsendpunkten Es wurden Informationen über die Karten- und Filtertransformationen, die Unterstützung für Amazon RDS Microsoft SQL Server und Amazon RDS Oracle sowie neue Funktionen für Entwicklungsendpunkte hinzugefügt. 29. September 2017
AWS Glue-Erstversion Dies ist die erste Version des AWS Glue -Entwicklerhandbuchs. 14. August 2017