Übersicht Voraussetzungen und Einschränkungen Architektur Tools Bewährte Methoden Epen Zugehörige Ressourcen Zusätzliche Informationen

Generieren Sie Testdaten mit einem AWS Glue Glue-Job und Python

Moinul Al-Mamun, Amazon Web Services

Übersicht

Dieses Muster zeigt Ihnen, wie Sie schnell und einfach Millionen von Beispieldateien gleichzeitig generieren können, indem Sie einen in Python geschriebenen AWS Glue Glue-Job erstellen. Die Beispieldateien werden in einem Amazon Simple Storage Service (Amazon S3) -Bucket gespeichert. Die Fähigkeit, schnell eine große Anzahl von Beispieldateien zu generieren, ist wichtig für das Testen oder Evaluieren von Services in der AWS-Cloud. Sie können beispielsweise die Leistung von AWS Glue Studio- oder AWS Glue DataBrew Glue-Jobs testen, indem Sie Datenanalysen für Millionen kleiner Dateien in einem Amazon S3 S3-Präfix durchführen.

Sie können zwar andere AWS-Services verwenden, um Beispieldatensätze zu generieren, wir empfehlen Ihnen jedoch, AWS Glue zu verwenden. Sie müssen keine Infrastruktur verwalten, da es sich bei AWS Glue um einen serverlosen Datenverarbeitungsservice handelt. Sie können einfach Ihren Code mitbringen und ihn in einem AWS Glue Glue-Cluster ausführen. Darüber hinaus stellt AWS Glue die Ressourcen bereit, konfiguriert und skaliert sie, die für die Ausführung Ihrer Jobs erforderlich sind. Sie zahlen nur für die Ressourcen, die Ihre Jobs während der Ausführung verbrauchen.

Voraussetzungen und Einschränkungen

Voraussetzungen

Ein aktives AWS-Konto
AWS-Befehlszeilenschnittstelle (AWS CLI), für die Verwendung mit dem AWS-Konto installiert und konfiguriert

Produktversionen

Python 3.9
AWS-CLI Version 2

Einschränkungen

Die maximale Anzahl von AWS Glue Glue-Jobs pro Trigger beträgt 50. Weitere Informationen finden Sie unter AWS Glue Glue-Endpunkte und Kontingente.

Architektur

Das folgende Diagramm zeigt eine Beispielarchitektur, in deren Mittelpunkt ein AWS Glue Glue-Job steht, der seine Ausgabe (d. h. Beispieldateien) in einen S3-Bucket schreibt.

Der Workflow zeigt, dass die AWS-CLI den AWS Glue-Job initiiert, der die Ausgabe in den S3-Bucket schreibt.

Das Diagramm umfasst den folgenden Workflow:

Sie verwenden die AWS-CLI, die AWS-Managementkonsole oder eine API, um den AWS Glue-Job zu initiieren. Mit der AWS-CLI oder API können Sie die Parallelisierung des aufgerufenen Jobs automatisieren und die Laufzeit für die Generierung von Beispieldateien reduzieren.
Der AWS Glue Glue-Job generiert Dateiinhalte nach dem Zufallsprinzip, konvertiert den Inhalt in das CSV-Format und speichert den Inhalt dann als Amazon S3 S3-Objekt unter einem gemeinsamen Präfix. Jede Datei ist kleiner als ein Kilobyte. Der AWS Glue Glue-Job akzeptiert zwei benutzerdefinierte Auftragsparameter: START_RANGE undEND_RANGE. Sie können diese Parameter verwenden, um Dateinamen und die Anzahl der Dateien festzulegen, die in Amazon S3 bei jeder Auftragsausführung generiert werden. Sie können mehrere Instanzen dieses Jobs parallel ausführen (z. B. 100 Instanzen).

Tools

Amazon Simple Storage Service (Amazon S3) ist ein cloudbasierter Objektspeicherservice, der Sie beim Speichern, Schützen und Abrufen beliebiger Datenmengen unterstützt.
AWS Command Line Interface (AWS CLI) ist ein Open-Source-Tool, mit dem Sie über Befehle in Ihrer Befehlszeilen-Shell mit AWS-Services interagieren können.
AWS Glue ist ein vollständig verwalteter Service zum Extrahieren, Transformieren und Laden (ETL). Er hilft Ihnen dabei, Daten zuverlässig zu kategorisieren, zu bereinigen, anzureichern und zwischen Datenspeichern und Datenströmen zu verschieben.
AWS Identity and Access Management (IAM) hilft Ihnen dabei, den Zugriff auf Ihre AWS-Ressourcen sicher zu verwalten, indem kontrolliert wird, wer authentifiziert und autorisiert ist, diese zu verwenden.

Bewährte Methoden

Beachten Sie bei der Implementierung dieses Musters die folgenden bewährten Methoden für AWS Glue:

Verwenden Sie den richtigen AWS Glue Glue-Worker-Typ, um die Kosten zu senken. Wir empfehlen Ihnen, sich mit den verschiedenen Eigenschaften von Workertypen vertraut zu machen und dann anhand der CPU- und Speicheranforderungen den richtigen Worker-Typ für Ihre Arbeitslast auszuwählen. Für dieses Muster empfehlen wir, einen Python-Shell-Job als Jobtyp zu verwenden, um die DPU zu minimieren und die Kosten zu senken. Weitere Informationen finden Sie unter Hinzufügen von Aufträgen in AWS Glue im AWS Glue Developer Guide.
Verwenden Sie das richtige Parallelitätslimit, um Ihren Job zu skalieren. Wir empfehlen Ihnen, die maximale Parallelität Ihres AWS Glue Glue-Auftrags auf Ihrem Zeitbedarf und der erforderlichen Anzahl von Dateien festzulegen.
Generieren Sie zunächst eine kleine Anzahl von Dateien. Um Kosten und Zeit beim Erstellen Ihrer AWS Glue Glue-Jobs zu sparen, beginnen Sie mit einer kleinen Anzahl von Dateien (z. B. 1.000). Dies kann die Fehlerbehebung erleichtern. Wenn das Generieren einer kleinen Anzahl von Dateien erfolgreich ist, können Sie auf eine größere Anzahl von Dateien skalieren.
Führen Sie es zuerst lokal aus. Um Kosten und Zeit bei der Erstellung Ihrer AWS Glue Glue-Jobs zu sparen, starten Sie die Entwicklung lokal und testen Sie Ihren Code. Anweisungen zur Einrichtung eines Docker-Containers, der Ihnen helfen kann, AWS Glue Glue-ETL-Jobs (Extrahieren, Transformieren und Laden) sowohl in einer Shell als auch in einer integrierten Entwicklungsumgebung (IDE) zu schreiben, finden Sie im Beitrag Entwickeln von AWS Glue Glue-ETL-Jobs lokal mithilfe eines Containers im AWS Big Data-Blog.

Weitere bewährte Methoden für AWS Glue finden Sie unter Bewährte Methoden in der AWS Glue Glue-Dokumentation.

Epen

Aufgabe	Beschreibung	Erforderliche Fähigkeiten
Erstellen Sie einen S3-Bucket zum Speichern der Dateien.	Erstellen Sie einen S3-Bucket und ein darin enthaltenes Präfix. Anmerkung Dieses Muster verwendet den `s3://{your-s3-bucket-name}/small-files/` Standort zu Demonstrationszwecken.	App-Developer
Erstellen und konfigurieren Sie eine IAM-Rolle.	Sie müssen eine IAM-Rolle erstellen, die Ihr AWS Glue Glue-Job verwenden kann, um in Ihren S3-Bucket zu schreiben. Erstellen Sie eine IAM-Rolle (z. B. genannt`"AWSGlueServiceRole-smallfiles"`). Wählen Sie AWS Glue als vertrauenswürdige Entität der Richtlinie. Fügen Sie der Rolle eine von AWS verwaltete Richtlinie `"AWSGlueServiceRole"` hinzu, die aufgerufen wird. Erstellen Sie eine Inline-Richtlinie oder eine vom Kunden verwaltete Richtlinie, die auf der `"s3-small-file-access"` Grundlage der folgenden Konfiguration aufgerufen wird. `"{bucket}"`Ersetzen Sie es durch Ihren Bucket-Namen. `{ "Version": "2012-10-17", "Statement": [ { "Effect": "Allow", "Action": [ "s3:GetObject", "s3:PutObject" ], "Resource": [ "arn:aws:s3:::{bucket}/small-files/input/*" ] } ] }` Hängen Sie die `"s3-small-file-access"` Richtlinie an Ihre Rolle an.	App-Developer

Aufgabe Beschreibung Erforderliche Fähigkeiten

Aufgabe	Beschreibung	Erforderliche Fähigkeiten
Erstellen Sie einen AWS Glue Glue-Job.	Sie müssen einen AWS Glue Glue-Job erstellen, der Ihre Inhalte generiert und in einem S3-Bucket speichert. Erstellen Sie einen AWS Glue Glue-Job und konfigurieren Sie dann Ihren Job, indem Sie die folgenden Schritte ausführen: Melden Sie sich bei der AWS-Managementkonsole an und öffnen Sie die AWS Glue-Konsole. Wählen Sie im Navigationsbereich unter Datenintegration und ETL die Option Jobs aus. Wählen Sie im Abschnitt Job erstellen die Option Python-Shell-Skripteditor aus. Wählen Sie im Abschnitt Optionen die Option Neues Skript mit Standardcode erstellen und dann Erstellen aus. Wählen Sie Jobdetails. Geben Sie als Namen create_small_files ein. Wählen Sie für IAM-Rolle die IAM-Rolle aus, die Sie zuvor erstellt haben. Wählen Sie im Abschnitt Dieser Job wird ausgeführt die Option Ein neues Skript, das von Ihnen erstellt werden soll aus. Erweitern Sie Erweiterte Eigenschaften. Geben Sie zu Demonstrationszwecken für Maximale Parallelität den Wert 100 ein. Hinweis: Die maximale Parallelität definiert, wie viele Instanzen des Jobs Sie parallel ausführen können. Wählen Sie Speichern.	App-Developer
Aktualisieren Sie den Jobcode.	Öffnen Sie die AWS Glue Glue-Konsole. Wählen Sie im Navigationsbereich die Option Jobs (Aufträge) aus. Wählen Sie im Bereich Ihre Jobs den Job aus, den Sie zuvor erstellt haben. Wählen Sie die Registerkarte Skript und aktualisieren Sie dann das Skript auf der Grundlage des folgenden Codes. Aktualisieren Sie die `text_str` Variablen `BUCKET_NAMEPREFIX`, und mit Ihren Werten. from awsglue.utils import getResolvedOptions import sys import boto3 from random import randrange # Two arguments args = getResolvedOptions(sys.argv, ['START_RANGE', 'END_RANGE']) START_RANGE = int(args['START_RANGE']) END_RANGE = int(args['END_RANGE']) BUCKET_NAME = '{BUCKET_NAME}' PREFIX = 'small-files/input/' s3 = boto3.resource('s3') for x in range(START_RANGE, END_RANGE): # generate file name file_name = f"input_{x}.txt" # generate text text_str = str(randrange(100000))+","+str(randrange(100000))+", " + str(randrange(10000000)) + "," + str(randrange(10000)) # write in s3 s3.Object(BUCKET_NAME, PREFIX + file_name).put(Body=text_str) Wählen Sie Speichern.	App-Developer

Erstellen Sie einen AWS Glue Glue-Job.

Sie müssen einen AWS Glue Glue-Job erstellen, der Ihre Inhalte generiert und in einem S3-Bucket speichert.

Erstellen Sie einen AWS Glue Glue-Job und konfigurieren Sie dann Ihren Job, indem Sie die folgenden Schritte ausführen:

Melden Sie sich bei der AWS-Managementkonsole an und öffnen Sie die AWS Glue-Konsole.
Wählen Sie im Navigationsbereich unter Datenintegration und ETL die Option Jobs aus.
Wählen Sie im Abschnitt Job erstellen die Option Python-Shell-Skripteditor aus.
Wählen Sie im Abschnitt Optionen die Option Neues Skript mit Standardcode erstellen und dann Erstellen aus.
Wählen Sie Jobdetails.
Geben Sie als Namen create_small_files ein.
Wählen Sie für IAM-Rolle die IAM-Rolle aus, die Sie zuvor erstellt haben.
Wählen Sie im Abschnitt Dieser Job wird ausgeführt die Option Ein neues Skript, das von Ihnen erstellt werden soll aus.
Erweitern Sie Erweiterte Eigenschaften.
Geben Sie zu Demonstrationszwecken für Maximale Parallelität den Wert 100 ein. Hinweis: Die maximale Parallelität definiert, wie viele Instanzen des Jobs Sie parallel ausführen können.
Wählen Sie Speichern.

App-Developer

Aktualisieren Sie den Jobcode.

Öffnen Sie die AWS Glue Glue-Konsole.
Wählen Sie im Navigationsbereich die Option Jobs (Aufträge) aus.
Wählen Sie im Bereich Ihre Jobs den Job aus, den Sie zuvor erstellt haben.

Wählen Sie die Registerkarte Skript und aktualisieren Sie dann das Skript auf der Grundlage des folgenden Codes. Aktualisieren Sie die text_str Variablen BUCKET_NAMEPREFIX, und mit Ihren Werten.


from awsglue.utils import getResolvedOptions
import sys
import boto3
from random import randrange
 
# Two arguments 
args = getResolvedOptions(sys.argv, ['START_RANGE', 'END_RANGE'])
 
START_RANGE = int(args['START_RANGE'])
END_RANGE = int(args['END_RANGE'])
 
BUCKET_NAME = '{BUCKET_NAME}'
PREFIX = 'small-files/input/'
s3 = boto3.resource('s3')
for x in range(START_RANGE, END_RANGE):
    # generate file name
    file_name = f"input_{x}.txt"
    # generate text
    text_str = str(randrange(100000))+","+str(randrange(100000))+", " + str(randrange(10000000)) + "," + str(randrange(10000))
    # write in s3
s3.Object(BUCKET_NAME, PREFIX + file_name).put(Body=text_str)

Wählen Sie Speichern.

App-Developer

Aufgabe Beschreibung Erforderliche Fähigkeiten

Aufgabe	Beschreibung	Erforderliche Fähigkeiten
Führen Sie den AWS Glue Glue-Job von der Befehlszeile aus.	Um Ihren AWS Glue Glue-Job über die AWS-CLI auszuführen, führen Sie den folgenden Befehl mit Ihren Werten aus: `cmd:~$ aws glue start-job-run --job-name create_small_files --arguments '{"--START_RANGE":"0","--END_RANGE":"1000000"}' cmd:~$ aws glue start-job-run --job-name create_small_files --arguments '{"--START_RANGE":"1000000","--END_RANGE":"2000000"}'` Anmerkung Anweisungen zur Ausführung des AWS Glue Glue-Jobs von der AWS-Managementkonsole aus finden Sie in der Geschichte Ausführen des AWS Glue-Jobs in der AWS-Managementkonsole in diesem Muster. Tipp Wir empfehlen die Verwendung der AWS-CLI zur Ausführung von AWS Glue-Jobs, wenn Sie mehrere Ausführungen gleichzeitig mit unterschiedlichen Parametern ausführen möchten, wie im obigen Beispiel gezeigt. Um alle AWS-CLI-Befehle zu generieren, die zum Generieren einer definierten Anzahl von Dateien unter Verwendung eines bestimmten Parallelisierungsfaktors erforderlich sind, führen Sie den folgenden Bash-Code aus (unter Verwendung Ihrer Werte): `# define parameters NUMBER_OF_FILES=10000000; PARALLELIZATION=50; # initialize _SB=0; # generate commands for i in $(seq 1 $PARALLELIZATION); do echo aws glue start-job-run --job-name create_small_files --arguments "'"'{"--START_RANGE":"'$(((NUMBER_OF_FILES/PARALLELIZATION) * (i-1) + _SB))'","--END_RANGE":"'$(((NUMBER_OF_FILES/PARALLELIZATION) * (i)))'"}'"'"; _SB=1; done` Wenn Sie das obige Skript verwenden, sollten Sie Folgendes beachten: Das Skript vereinfacht das Aufrufen und Generieren kleiner Dateien in großem Maßstab. Aktualisiere `NUMBER_OF_FILES` und `PARALLELIZATION` mit deinen Werten. Das obige Skript druckt eine Liste von Befehlen, die Sie ausführen müssen. Kopieren Sie diese Ausgabebefehle und führen Sie sie dann in Ihrem Terminal aus. Wenn Sie die Befehle direkt aus dem Skript heraus ausführen möchten, entfernen Sie die `echo` Anweisung in Zeile 11. Anmerkung Ein Beispiel für die Ausgabe des obigen Skripts finden Sie unter Shell-Skriptausgabe im Abschnitt Zusätzliche Informationen dieses Musters.	App-Developer
Führen Sie den AWS Glue Glue-Job in der AWS-Managementkonsole aus.	Melden Sie sich bei der AWS-Managementkonsole an und öffnen Sie die AWS Glue-Konsole. Wählen Sie im Navigationsbereich unter Datenintegration und ETL die Option Jobs aus. Wählen Sie im Bereich „Ihre Jobs“ Ihren Job aus. Aktualisieren Sie im Abschnitt Parameter (optional) Ihre Parameter. Wählen Sie Aktion und dann Job ausführen aus. Wiederholen Sie die Schritte 3 bis 5 so oft Sie möchten. Um beispielsweise 10 Millionen Dateien zu erstellen, wiederholen Sie diesen Vorgang zehnmal.	App-Developer
Überprüfen Sie den Status Ihres AWS Glue Glue-Auftrags.	Öffnen Sie die AWS Glue Glue-Konsole. Wählen Sie im Navigationsbereich die Option Jobs (Aufträge) aus. Wählen Sie im Bereich „Ihre Jobs“ den Job aus, den Sie zuvor erstellt haben (d. h.`create_small_files`). Informationen zum Fortschritt und zur Generierung Ihrer Dateien finden Sie in den Spalten Run-ID, Run Status und anderen.	App-Developer

Führen Sie den AWS Glue Glue-Job von der Befehlszeile aus.

Um Ihren AWS Glue Glue-Job über die AWS-CLI auszuführen, führen Sie den folgenden Befehl mit Ihren Werten aus:


cmd:~$ aws glue start-job-run --job-name create_small_files --arguments '{"--START_RANGE":"0","--END_RANGE":"1000000"}'
cmd:~$ aws glue start-job-run --job-name create_small_files --arguments '{"--START_RANGE":"1000000","--END_RANGE":"2000000"}'

Anmerkung

Anweisungen zur Ausführung des AWS Glue Glue-Jobs von der AWS-Managementkonsole aus finden Sie in der Geschichte Ausführen des AWS Glue-Jobs in der AWS-Managementkonsole in diesem Muster.

Tipp

Wir empfehlen die Verwendung der AWS-CLI zur Ausführung von AWS Glue-Jobs, wenn Sie mehrere Ausführungen gleichzeitig mit unterschiedlichen Parametern ausführen möchten, wie im obigen Beispiel gezeigt.

Um alle AWS-CLI-Befehle zu generieren, die zum Generieren einer definierten Anzahl von Dateien unter Verwendung eines bestimmten Parallelisierungsfaktors erforderlich sind, führen Sie den folgenden Bash-Code aus (unter Verwendung Ihrer Werte):


# define parameters
NUMBER_OF_FILES=10000000;
PARALLELIZATION=50; 
 
# initialize
_SB=0;
      
# generate commands
for i in $(seq 1 $PARALLELIZATION); 
do 
      echo aws glue start-job-run --job-name create_small_files --arguments "'"'{"--START_RANGE":"'$(((NUMBER_OF_FILES/PARALLELIZATION) * (i-1) + _SB))'","--END_RANGE":"'$(((NUMBER_OF_FILES/PARALLELIZATION) * (i)))'"}'"'";
      _SB=1; 
done

Wenn Sie das obige Skript verwenden, sollten Sie Folgendes beachten:

Das Skript vereinfacht das Aufrufen und Generieren kleiner Dateien in großem Maßstab.
Aktualisiere NUMBER_OF_FILES und PARALLELIZATION mit deinen Werten.
Das obige Skript druckt eine Liste von Befehlen, die Sie ausführen müssen. Kopieren Sie diese Ausgabebefehle und führen Sie sie dann in Ihrem Terminal aus.
Wenn Sie die Befehle direkt aus dem Skript heraus ausführen möchten, entfernen Sie die echo Anweisung in Zeile 11.

Anmerkung

Ein Beispiel für die Ausgabe des obigen Skripts finden Sie unter Shell-Skriptausgabe im Abschnitt Zusätzliche Informationen dieses Musters.

App-Developer

Führen Sie den AWS Glue Glue-Job in der AWS-Managementkonsole aus.

Melden Sie sich bei der AWS-Managementkonsole an und öffnen Sie die AWS Glue-Konsole.
Wählen Sie im Navigationsbereich unter Datenintegration und ETL die Option Jobs aus.
Wählen Sie im Bereich „Ihre Jobs“ Ihren Job aus.
Aktualisieren Sie im Abschnitt Parameter (optional) Ihre Parameter.
Wählen Sie Aktion und dann Job ausführen aus.
Wiederholen Sie die Schritte 3 bis 5 so oft Sie möchten. Um beispielsweise 10 Millionen Dateien zu erstellen, wiederholen Sie diesen Vorgang zehnmal.

App-Developer

Überprüfen Sie den Status Ihres AWS Glue Glue-Auftrags.

Öffnen Sie die AWS Glue Glue-Konsole.
Wählen Sie im Navigationsbereich die Option Jobs (Aufträge) aus.
Wählen Sie im Bereich „Ihre Jobs“ den Job aus, den Sie zuvor erstellt haben (d. h.create_small_files).
Informationen zum Fortschritt und zur Generierung Ihrer Dateien finden Sie in den Spalten Run-ID, Run Status und anderen.

App-Developer

Zugehörige Ressourcen

Referenzen

Anleitungen und Muster

Zusätzliche Informationen

Benchmarking-Test

Dieses Muster wurde verwendet, um im Rahmen eines Benchmark-Tests 10 Millionen Dateien mit unterschiedlichen Parallelisierungsparametern zu generieren. Die folgende Tabelle zeigt die Ergebnisse des Tests:

Parallelisierung	Anzahl der Dateien, die durch einen Joblauf generiert wurden	Dauer des Job	Geschwindigkeit
10	1 000 000	6 Stunden, 40 Minuten	Sehr langsam
50	200 000	80 Minuten	Mittel
100	100 000	40 Minuten	Schnell

Wenn Sie den Prozess beschleunigen möchten, können Sie in Ihrer Jobkonfiguration mehr gleichzeitige Läufe konfigurieren. Sie können die Auftragskonfiguration ganz einfach an Ihre Anforderungen anpassen. Beachten Sie jedoch, dass es ein Kontingent für den AWS Glue Glue-Service gibt. Weitere Informationen finden Sie unter AWS Glue Glue-Endpunkte und Kontingente.

Shell-Skriptausgabe

Das folgende Beispiel zeigt die Ausgabe des Shell-Skripts aus dem Job Run the AWS Glue von der Befehlszeile aus in diesem Muster.


user@MUC-1234567890 MINGW64 ~
  $ # define parameters
  NUMBER_OF_FILES=10000000;
  PARALLELIZATION=50;
  # initialize
  _SB=0;
   
  # generate commands
  for i in $(seq 1 $PARALLELIZATION);
   do
         echo aws glue start-job-run --job-name create_small_files --arguments "'"'{"--START_RANGE":"'$(((NUMBER_OF_FILES/PARALLELIZATION)  (i-1) + SB))'","--ENDRANGE":"'$(((NUMBER_OF_FILES/PARALLELIZATION)  (i)))'"}'"'";
         _SB=1;
   done
   
  aws glue start-job-run --job-name create_small_files --arguments '{"--START_RANGE":"0","--END_RANGE":"200000"}'
  aws glue start-job-run --job-name create_small_files --arguments '{"--START_RANGE":"200001","--END_RANGE":"400000"}'
  aws glue start-job-run --job-name create_small_files --arguments '{"--START_RANGE":"400001","--END_RANGE":"600000"}'
  aws glue start-job-run --job-name create_small_files --arguments '{"--START_RANGE":"600001","--END_RANGE":"800000"}'
  aws glue start-job-run --job-name create_small_files --arguments '{"--START_RANGE":"800001","--END_RANGE":"1000000"}'
  aws glue start-job-run --job-name create_small_files --arguments '{"--START_RANGE":"1000001","--END_RANGE":"1200000"}'
  aws glue start-job-run --job-name create_small_files --arguments '{"--START_RANGE":"1200001","--END_RANGE":"1400000"}'
  aws glue start-job-run --job-name create_small_files --arguments '{"--START_RANGE":"1400001","--END_RANGE":"1600000"}'
  aws glue start-job-run --job-name create_small_files --arguments '{"--START_RANGE":"1600001","--END_RANGE":"1800000"}'
  aws glue start-job-run --job-name create_small_files --arguments '{"--START_RANGE":"1800001","--END_RANGE":"2000000"}'
  aws glue start-job-run --job-name create_small_files --arguments '{"--START_RANGE":"2000001","--END_RANGE":"2200000"}'
  aws glue start-job-run --job-name create_small_files --arguments '{"--START_RANGE":"2200001","--END_RANGE":"2400000"}'
  aws glue start-job-run --job-name create_small_files --arguments '{"--START_RANGE":"2400001","--END_RANGE":"2600000"}'
  aws glue start-job-run --job-name create_small_files --arguments '{"--START_RANGE":"2600001","--END_RANGE":"2800000"}'
  aws glue start-job-run --job-name create_small_files --arguments '{"--START_RANGE":"2800001","--END_RANGE":"3000000"}'
  aws glue start-job-run --job-name create_small_files --arguments '{"--START_RANGE":"3000001","--END_RANGE":"3200000"}'
  aws glue start-job-run --job-name create_small_files --arguments '{"--START_RANGE":"3200001","--END_RANGE":"3400000"}'
  aws glue start-job-run --job-name create_small_files --arguments '{"--START_RANGE":"3400001","--END_RANGE":"3600000"}'
  aws glue start-job-run --job-name create_small_files --arguments '{"--START_RANGE":"3600001","--END_RANGE":"3800000"}'
  aws glue start-job-run --job-name create_small_files --arguments '{"--START_RANGE":"3800001","--END_RANGE":"4000000"}'
  aws glue start-job-run --job-name create_small_files --arguments '{"--START_RANGE":"4000001","--END_RANGE":"4200000"}'
  aws glue start-job-run --job-name create_small_files --arguments '{"--START_RANGE":"4200001","--END_RANGE":"4400000"}'
  aws glue start-job-run --job-name create_small_files --arguments '{"--START_RANGE":"4400001","--END_RANGE":"4600000"}'
  aws glue start-job-run --job-name create_small_files --arguments '{"--START_RANGE":"4600001","--END_RANGE":"4800000"}'
  aws glue start-job-run --job-name create_small_files --arguments '{"--START_RANGE":"4800001","--END_RANGE":"5000000"}'
  aws glue start-job-run --job-name create_small_files --arguments '{"--START_RANGE":"5000001","--END_RANGE":"5200000"}'
  aws glue start-job-run --job-name create_small_files --arguments '{"--START_RANGE":"5200001","--END_RANGE":"5400000"}'
  aws glue start-job-run --job-name create_small_files --arguments '{"--START_RANGE":"5400001","--END_RANGE":"5600000"}'
  aws glue start-job-run --job-name create_small_files --arguments '{"--START_RANGE":"5600001","--END_RANGE":"5800000"}'
  aws glue start-job-run --job-name create_small_files --arguments '{"--START_RANGE":"5800001","--END_RANGE":"6000000"}'
  aws glue start-job-run --job-name create_small_files --arguments '{"--START_RANGE":"6000001","--END_RANGE":"6200000"}'
  aws glue start-job-run --job-name create_small_files --arguments '{"--START_RANGE":"6200001","--END_RANGE":"6400000"}'
  aws glue start-job-run --job-name create_small_files --arguments '{"--START_RANGE":"6400001","--END_RANGE":"6600000"}'
  aws glue start-job-run --job-name create_small_files --arguments '{"--START_RANGE":"6600001","--END_RANGE":"6800000"}'
  aws glue start-job-run --job-name create_small_files --arguments '{"--START_RANGE":"6800001","--END_RANGE":"7000000"}'
  aws glue start-job-run --job-name create_small_files --arguments '{"--START_RANGE":"7000001","--END_RANGE":"7200000"}'
  aws glue start-job-run --job-name create_small_files --arguments '{"--START_RANGE":"7200001","--END_RANGE":"7400000"}'
  aws glue start-job-run --job-name create_small_files --arguments '{"--START_RANGE":"7400001","--END_RANGE":"7600000"}'
  aws glue start-job-run --job-name create_small_files --arguments '{"--START_RANGE":"7600001","--END_RANGE":"7800000"}'
  aws glue start-job-run --job-name create_small_files --arguments '{"--START_RANGE":"7800001","--END_RANGE":"8000000"}'
  aws glue start-job-run --job-name create_small_files --arguments '{"--START_RANGE":"8000001","--END_RANGE":"8200000"}'
  aws glue start-job-run --job-name create_small_files --arguments '{"--START_RANGE":"8200001","--END_RANGE":"8400000"}'
  aws glue start-job-run --job-name create_small_files --arguments '{"--START_RANGE":"8400001","--END_RANGE":"8600000"}'
  aws glue start-job-run --job-name create_small_files --arguments '{"--START_RANGE":"8600001","--END_RANGE":"8800000"}'
  aws glue start-job-run --job-name create_small_files --arguments '{"--START_RANGE":"8800001","--END_RANGE":"9000000"}'
  aws glue start-job-run --job-name create_small_files --arguments '{"--START_RANGE":"9000001","--END_RANGE":"9200000"}'
  aws glue start-job-run --job-name create_small_files --arguments '{"--START_RANGE":"9200001","--END_RANGE":"9400000"}'
  aws glue start-job-run --job-name create_small_files --arguments '{"--START_RANGE":"9400001","--END_RANGE":"9600000"}'
  aws glue start-job-run --job-name create_small_files --arguments '{"--START_RANGE":"9600001","--END_RANGE":"9800000"}'
  aws glue start-job-run --job-name create_small_files --arguments '{"--START_RANGE":"9800001","--END_RANGE":"10000000"}'
  
  user@MUC-1234567890 MINGW64 ~

HÄUFIG GESTELLTE FRAGEN

Wie viele gleichzeitige Läufe oder parallel Jobs sollte ich verwenden?

Die Anzahl der gleichzeitigen Läufe und parallel Jobs hängt von Ihrem Zeitbedarf und der gewünschten Anzahl von Testdateien ab. Wir empfehlen Ihnen, die Größe der Dateien, die Sie erstellen, zu überprüfen. Prüfen Sie zunächst, wie viel Zeit ein AWS Glue Glue-Job benötigt, um die gewünschte Anzahl von Dateien zu generieren. Verwenden Sie dann die richtige Anzahl gleichzeitiger Läufe, um Ihre Ziele zu erreichen. Wenn Sie beispielsweise davon ausgehen, dass 100.000 Dateien 40 Minuten benötigen, um den Lauf abzuschließen, Ihre Zielzeit jedoch 30 Minuten beträgt, müssen Sie die Parallelitätseinstellung für Ihren AWS Glue Glue-Job erhöhen.

Welche Art von Inhalt kann ich mit diesem Muster erstellen?

Sie können jede Art von Inhalt erstellen, z. B. Textdateien mit unterschiedlichen Trennzeichen (z. B. PIPE, JSON oder CSV). Dieses Muster verwendet Boto3, um in eine Datei zu schreiben, und speichert die Datei dann in einem S3-Bucket.

Welche IAM-Berechtigungen benötige ich für den S3-Bucket?

Sie benötigen eine identitätsbasierte Richtlinie, die den Write Zugriff auf Objekte in Ihrem S3-Bucket ermöglicht. Weitere Informationen finden Sie unter Amazon S3: Erlaubt Lese- und Schreibzugriff auf Objekte in einem S3-Bucket in der Amazon S3 S3-Dokumentation.

Warnung JavaScript ist in Ihrem Browser nicht verfügbar oder deaktiviert.

Zur Nutzung der AWS-Dokumentation muss JavaScript aktiviert sein. Weitere Informationen finden auf den Hilfe-Seiten Ihres Browsers.

Dokumentkonventionen

Stellen Sie sicher, dass Amazon EMR bei Amazon S3 protokolliert wird

IoT-Daten direkt in Amazon S3 aufnehmen