Datenverarbeitung mit dem Befehl dataprocessing - Amazon Neptune

Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.

Datenverarbeitung mit dem Befehl dataprocessing

Mit dem Neptune-ML-Befehl dataprocessing können Sie einen Datenverarbeitungsauftrag erstellen, dessen Status überprüfen, ihn beenden oder alle aktiven Datenverarbeitungsaufträge auflisten.

Erstellen eines Datenverarbeitungsauftrags mit dem Neptune-ML-Befehl dataprocessing

Der Neptune-ML-Befehl dataprocessing zum Erstellen eines neuen Auftrags sieht in der Regel wie folgt aus:

curl \ -X POST https://(your Neptune endpoint)/ml/dataprocessing \ -H 'Content-Type: application/json' \ -d '{ "inputDataS3Location" : "s3://(Amazon S3 bucket name)/(path to your input folder)", "id" : "(a job ID for the new job)", "processedDataS3Location" : "s3://(S3 bucket name)/(path to your output folder)" }'

Ein Befehl zum Initiieren einer inkrementellen Neuverarbeitung sieht wie folgt aus:

curl \ -X POST https://(your Neptune endpoint)/ml/dataprocessing \ -H 'Content-Type: application/json' \ -d '{ "inputDataS3Location" : "s3://(Amazon S3 bucket name)/(path to your input folder)", "id" : "(a job ID for this job)", "processedDataS3Location" : "s3://(S3 bucket name)/(path to your output folder)" "previousDataProcessingJobId" : "(the job ID of a previously completed job to update)" }'
Parameter für die Erstellung eines dataprocessing-Auftrags
  • id   –   (Optional) Eine eindeutige ID für den neuen Auftrag.

    Typ: Zeichenfolge. Standardwert: eine automatisch generierte UUID.

  • previousDataProcessingJobId   –   (Optional) Die Auftrags-ID eines abgeschlossenen Datenverarbeitungsauftrags, der für eine frühere Version der Daten ausgeführt wurde.

    Typ: Zeichenfolge. Standardwert: keiner.

    Hinweis: Verwenden Sie diese Option für die inkrementelle Datenverarbeitung, um das Modell zu aktualisieren, wenn die Diagrammdaten geändert wurden (jedoch nicht, wenn Daten gelöscht wurden).

  • inputDataS3Location   –   (Erforderlich) Der URI des Amazon-S3-Speicherorts, von dem SageMaker die für die Ausführung eines Datenverarbeitungsauftrags erforderlichen Daten herunterladen soll.

    Typ: Zeichenfolge.

  • processedDataS3Location   –   (Erforderlich) Der URI des Amazon-S3-Speicherorts, an dem SageMaker die Ergebnisse eines Datenverarbeitungsauftrags speichern soll.

    Typ: Zeichenfolge.

  • sagemakerIamRoleArn   –   (Optional) Der ARN einer IAM-Rolle für die SageMaker-Ausführung.

    Typ: Zeichenfolge. Hinweis: Er muss in der DB-Cluster-Parametergruppe aufgelistet werden, andernfalls tritt ein Fehler auf.

  • neptuneIamRoleArn   –   (Optional) Der Amazon-Ressourcenname (ARN) einer IAM-Rolle, die SageMaker zur Ausführung von Aufgaben in Ihrem Namen annehmen kann.

    Typ: Zeichenfolge. Hinweis: Er muss in der DB-Cluster-Parametergruppe aufgelistet werden, andernfalls tritt ein Fehler auf.

  • processingInstanceType   –   (Optional) Der Typ der ML-Instance, die während der Datenverarbeitung verwendet wird. Der Speicher sollte groß genug für den verarbeiteten Datensatz sein.

    Typ: Zeichenfolge. Standardwert: Der kleinste ml.r5-Typ, dessen Arbeitsspeicher zehnmal größer als die Größe der exportierten Diagrammdaten auf der Festplatte ist.

    Hinweis: Neptune ML kann den Instance-Typ automatisch auswählen. Siehe Auswahl einer Instance für die Datenverarbeitung.

  • processingInstanceVolumeSizeInGB   –   (Optional) Die Größe des Festplattenvolumens der verarbeitenden Instance. Da sowohl Eingabedaten als auch verarbeitete Daten auf der Festplatte gespeichert werden, muss das Volume groß genug für beide Datensätze sein.

    Typ: Ganzzahl. Standardwert: 0.

    Hinweis: Wenn nicht angegeben oder 0, wählt Neptune ML die Volume-Größe automatisch auf Grundlage der Datengröße aus.

  • processingTimeOutInSeconds   –   (Optional) Timeout in Sekunden für den Datenverarbeitungsauftrag.

    Typ: Ganzzahl. Default: 86,400 (1 Tag).

  • modelType   –   (Optional) Einer der beiden Modelltypen, die Neptune ML zurzeit unterstützt: heterogene Diagrammmodelle (heterogeneous) und Wissensdiagramme (kge).

    Typ: Zeichenfolge. Standardwert: keiner.

    Hinweis: Wenn nicht angegeben, wählt Neptune ML dem Modelltyp automatisch auf Grundlage der Daten aus.

  • configFileName   –   (Optional) Eine Datenspezifikationsdatei, die das Laden der exportierten Diagrammdaten für das Training beschreibt. Die Datei wird automatisch vom Neptune-Export-Toolkit generiert.

    Typ: Zeichenfolge. Standardwert: training-data-configuration.json.

  • subnets   –   (Optional) Die IDs der Subnetze in der Neptune VPC.

    Typ: Auflistung von Zeichenfolgen. Standardwert: keiner.

  • securityGroupIds   –   (Optional) Die VPC-Sicherheitsgruppen-IDs.

    Typ: Auflistung von Zeichenfolgen. Standardwert: keiner.

  • volumeEncryptionKMSKey   –   (Optional) Der Schlüssel AWS Key Management Service (AWS KMS), den SageMaker für die Verschlüsselung von Daten auf dem Speichervolume verwendet, das den ML-Datenverarbeitungs-Instances angefügt ist, die die Verarbeitungsaufgabe ausführen.

    Typ: Zeichenfolge. Standardwert: keiner.

  • enableInterContainerTrafficEncryption   –   (Optional) Aktiviert oder deaktiviert die Verschlüsselung des Datenverkehrs zwischen Containern bei Trainings- oder Hyperparameter-Optimierungsaufträgen.

    Typ: boolescher Wert. Standardwert: True.

    Anmerkung

    Der Parameter enableInterContainerTrafficEncryption ist nur in Engine-Version 1.2.0.2.R3 verfügbar.

  • s3OutputEncryptionKMSKey   –   (Optional) Der Schlüssel AWS Key Management Service (AWS KMS), den SageMaker für die Verschlüsselung der Ausgabe des Trainingsauftrags verwendet.

    Typ: Zeichenfolge. Standardwert: keiner.

Abrufen des Status eines Datenverarbeitungsauftrags mit dem Neptune ML-Befehl dataprocessing

Dies ist ein Beispiel für den Neptune-ML-Befehl dataprocessing für den Abruf des Status eines Auftrags:

curl -s \ "https://(your Neptune endpoint)/ml/dataprocessing/(the job ID)" \ | python -m json.tool
Parameter für den Abruf des Status des dataprocessing-Auftrags
  • id   –   (Erforderlich) Die eindeutige ID des Datenverarbeitungsauftrags.

    Typ: Zeichenfolge.

  • neptuneIamRoleArn   –   (Optional) Der ARN einer IAM-Rolle, die Neptune den Zugriff auf SageMaker- und Amazon-S3-Ressourcen bereitstellt.

    Typ: Zeichenfolge. Hinweis: Er muss in der DB-Cluster-Parametergruppe aufgelistet werden, andernfalls tritt ein Fehler auf.

Stoppen eines Datenverarbeitungsauftrags mit dem Neptune-ML-Befehl dataprocessing

Dies ist ein Beispiel für den Neptune-ML-Befehl dataprocessing für das Stoppen eines Auftrags:

curl -s \ -X DELETE "https://(your Neptune endpoint)/ml/dataprocessing/(the job ID)"

Oder:

curl -s \ -X DELETE "https://(your Neptune endpoint)/ml/dataprocessing/(the job ID)?clean=true"
Parameter für das Stoppen eines dataprocessing-Auftrags
  • id   –   (Erforderlich) Die eindeutige ID des Datenverarbeitungsauftrags.

    Typ: Zeichenfolge.

  • neptuneIamRoleArn   –   (Optional) Der ARN einer IAM-Rolle, die Neptune den Zugriff auf SageMaker- und Amazon-S3-Ressourcen bereitstellt.

    Typ: Zeichenfolge. Hinweis: Er muss in der DB-Cluster-Parametergruppe aufgelistet werden, andernfalls tritt ein Fehler auf.

  • clean   –   (Optional) Dieses Flag gibt an, dass alle Amazon-S3-Artefakte gelöscht werden sollen, wenn der Auftrag gestoppt wird.

    Typ: boolescher Wert. Standardwert: FALSE.

Auflisten aktiver Datenverarbeitungsaufträge mit dem Neptune-ML-Befehl dataprocessing

Dies ist ein Beispiel für den Neptune-ML-Befehl dataprocessing für das Auflisten aktiver Aufträge:

curl -s "https://(your Neptune endpoint)/ml/dataprocessing"

Oder:

curl -s "https://(your Neptune endpoint)/ml/dataprocessing?maxItems=3"
Parameter für das Auflisten von dataprocessing-Aufträgen
  • maxItems   –   (Optional) Die maximale Anzahl der Elemente, die zurückgegeben werden sollen.

    Typ: Ganzzahl. Standardwert: 10. Maximal zulässiger Wert: 1024.

  • neptuneIamRoleArn   –   (Optional) Der ARN einer IAM-Rolle, die Neptune den Zugriff auf SageMaker- und Amazon-S3-Ressourcen bereitstellt.

    Typ: Zeichenfolge. Hinweis: Er muss in der DB-Cluster-Parametergruppe aufgelistet werden, andernfalls tritt ein Fehler auf.