Arbeiten mit Ray-Aufträgen in AWS Glue - AWS Glue

Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.

Arbeiten mit Ray-Aufträgen in AWS Glue

Dieser Abschnitt bietet Informationen zur Verwendung von AWS Glue für Ray-Aufträge. Weitere Informationen zum Schreiben von AWS Glue-für-Ray-Skripten finden Sie im Programmieren von Ray-Skripten-Abschnitt.

Erste Schritte mit AWS Glue für Ray

Um mit AWS Glue für Ray zu arbeiten, verwenden Sie dieselben AWS Glue-Aufträge und interaktiven Sitzungen, die Sie auch für AWS Glue für Spark verwenden. AWS Glue-Aufträge sind für die Ausführung desselben Skripts in wiederkehrenden Abständen konzipiert, während interaktive Sitzungen darauf ausgelegt sind, dass Sie Codeausschnitte nacheinander für dieselben bereitgestellten Ressourcen ausführen können.

AWS Glue ETL und Ray unterscheiden sich grundlegend, sodass Sie in Ihrem Skript Zugriff auf unterschiedliche Tools, Funktionen und Konfigurationen haben. Ist ein neues Berechnungs-Framework, das von AWS Glue verwaltet wird. Ray verfügt über eine andere Architektur und verwendet ein anderes Vokabular, um zu beschreiben, was es tut. Weitere Informationen finden Sie in den Architektur-Whitepapers in der Ray-Dokumentation.

Anmerkung

AWS Glue für Ray ist in den USA Ost (Nord-Virginia), USA Ost (Ohio), USA West (Oregon), Asien-Pazifik (Tokio) und Europa (Irland) verfügbar.

Ray-Aufträge in der AWS Glue Studio-Konsole

Auf der Seite Aufträge in der AWS Glue Studio-Konsole können Sie eine neue Option auswählen, wenn Sie einen Auftrag in AWS Glue Studio – Ray-Skript-Editor erstellen. Wählen Sie diese Option, um einen Ray-Auftrag in der Konsole zu erstellen. Weitere Informationen zu Aufträgen und deren Verwendung finden Sie unter Erstellen von visuellen ETL-Aufträgen mit AWS Glue Studio.

Die Seite Aufträge in AWS Glue Studio mit der ausgewählten Option Ray-Skript-Editor.

Ray-Aufträge in der AWS CLI und im SDK

Ray-Aufträge in der AWS CLI verwenden dieselben SDK-Aktionen und Parameter wie andere Aufträge. AWS Glue für Ray führt neue Werte für bestimmte Parameter ein. Weitere Informationen zur Auftrags-API finden Sie unter Aufträge.

Unterstützte Ray-Laufzeitumgebungen

Bei Spark-Aufträgen ermittelt GlueVersion die Versionen von Apache Spark und Python, die in jedem AWS Glue für Spark-Aufträge verfügbar sind. Die Python-Version gibt die Version an, die für Aufträge vom Typ Spark unterstützt wird. Dies ist nicht die Art und Weise, wie Ray-Laufzeitumgebungen konfiguriert sind.

Für Ray-Aufträge sollten Sie GlueVersion auf 4.0 oder höher festlegen. Welche Versionen von Ray, Python und weiteren Bibliotheken in Ihrem Ray-Auftrag verfügbar sind, wird jedoch durch das Runtime-Feld in der Auftragsdefinition bestimmt.

Die Ray2.4 Laufzeitumgebung steht nach der Veröffentlichung mindestens 6 Monate lang zur Verfügung. Da sich Ray schnell weiterentwickelt, können Sie Aktualisierungen und Verbesserungen von Ray über zukünftige Versionen der Laufzeitumgebung einbinden.

Zulässige Werte: Ray2.4

Wert der Laufzeit Ray- und Python-Versionen
Ray2.4 (für AWS Glue 4.0+)

Ray 2.4.0

Python 3.9

Zusätzliche Informationen

Abrechnung für Worker in Ray-Aufträgen

AWS Glue führt Ray-Aufträgen auf neuen Graviton-basierten EC2-Worker-Typen aus, die nur für Ray-Aufträgen verfügbar sind. Um diese Worker angemessen für die Workloads bereitzustellen, für die Ray entwickelt wurde, stellen wir für die meisten Worker ein anderes Verhältnis von Rechenressourcen zu Speicherressourcen bereit. Um diese Ressourcen zu berücksichtigen, verwenden wir die speicheroptimierte Datenverarbeitungseinheit (M-DPU) anstelle der Standard-Datenverarbeitungseinheit (DPU).

  • Eine M-DPU entspricht 4 vCPUs und 32 GB Arbeitsspeicher.

  • Eine DPU entspricht 4 vCPUs und 16 GB Arbeitsspeicher. DPUs werden verwendet, um Ressourcen in AWS Glue mit Spark-Aufträgen und entsprechenden Workern zu berücksichtigen.

Ray-Aufträge haben derzeit Zugriff auf einen Worker-Typ, Z.2X. Dem Z.2X-Worker sind 2 M-DPUs (8 vCPUs, 64 GB Arbeitsspeicher) zugeordnet und verfügt über 128 GB Festplattenspeicher. Ein Z.2X-Computer stellt 8 Ray-Worker bereit (einen pro vCPU).

Die Anzahl der M-DPUs, die Sie gleichzeitig in einem Konto verwenden können, unterliegt einem Service-Kontingent. Weitere Informationen zu Ihren AWS Glue-Kontolimits finden Sie unter AWS Glue-Endpunkte und Kontingente.

Die Anzahl der Worker-Knoten, die einem Ray-Auftrag zur Verfügung stehen, geben Sie mit --number-of-workers (NumberOfWorkers) in der Auftragsdefinition an. Weitere Informationen zu Ray-Werten in der Auftrags-API finden Sie unter Aufträge.

Mit dem --min-workers-Auftragsparameter können Sie außerdem eine Mindestanzahl von Workern angeben, die ein Ray-Auftrag zuweisen muss. Informationen zu Auftragsparametern finden Sie unter Referenz.