Verwenden des Tools neptune-export oder des Neptune-Export-Service zum Exportieren von Daten aus Neptune für Neptune ML - Amazon Neptune

Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.

Verwenden des Tools neptune-export oder des Neptune-Export-Service zum Exportieren von Daten aus Neptune für Neptune ML

Neptune ML erfordert, dass Sie Trainingsdaten für die Deep Graph Library (DGL) bereitstellen, um Modelle zu erstellen und auszuwerten.

Sie können mit dem Neptune-Export-Service oder mit dem neptune-export-Hilfsprogramm Daten aus Neptune exportieren. Sowohl der Service als auch das Befehlszeilentool veröffentlichen Daten zu Amazon Simple Storage Service (Amazon S3) im CSV-Format, die mit serverseitiger Amazon-S3-Verschlüsselung (SSE-S3) verschlüsselt sind. Siehe Von Neptune-Export exportierte Dateien und neptune-export.

Wenn Sie einen Export von Trainingsdaten für Neptune ML konfigurieren, erstellt und veröffentlicht der Exportauftrag eine verschlüsselte Modelltrainings-Konfigurationsdatei zusammen mit den exportierten Daten. Diese Datei hat standardmäßig den Namen training-data-configuration.json.

Beispiele für die Verwendung des Neptune-Export-Service zum Exportieren von Trainingsdaten für Neptune ML

Diese Anforderung exportiert Eigenschaftsdiagramm-Trainingsdaten für eine Aufgabe zur Knotenklassifizierung:

curl \ (your NeptuneExportApiUri) \ -X POST \ -H 'Content-Type: application/json' \ -d '{ "command": "export-pg", "outputS3Path": "s3://(your Amazon S3 bucket)/neptune-export", "params": { "endpoint": "(your Neptune endpoint DNS name)", "profile": "neptune_ml" }, "additionalParams": { "neptune_ml": { "version": "v2.0", "targets": [ { "node": "Movie", "property": "genre", "type": "classification" } ] } } }'

Diese Anforderung exportiert RDF-Trainingsdaten für eine Aufgabe zur Knotenklassifizierung:

curl \ (your NeptuneExportApiUri) \ -X POST \ -H 'Content-Type: application/json' \ -d '{ "command": "export-rdf", "outputS3Path": "s3://(your Amazon S3 bucket)/neptune-export", "params": { "endpoint": "(your Neptune endpoint DNS name)", "profile": "neptune_ml" }, "additionalParams": { "neptune_ml": { "version": "v2.0", "targets": [ { "node": "http://aws.amazon.com/neptune/csv2rdf/class/Movie", "predicate": "http://aws.amazon.com/neptune/csv2rdf/datatypeProperty/genre", "type": "classification" } ] } } }'

Felder, die beim Exportieren von Trainingsdaten im params-Objekt festgelegt werden müssen

Das params-Objekt in einer Exportanforderung kann verschiedene Felder enthalten, wie in der params-Dokumentation beschrieben. Die folgenden Felder sind für den Export von Machine-Learning-Trainingsdaten am relevantesten:

  • endpoint   –   Verwenden Sie endpoint, um den Endpunkt einer Neptune-Instance in Ihrem DB-Cluster anzugeben, den der Exportvorgang abfragen kann, um Daten zu extrahieren.

  • profile   –   Das Feld profile im params-Objekt muss auf neptune-ml festgelegt sein.

    Dadurch formatiert der Exportvorgang die exportierten Daten für das Neptune-ML-Modelltraining im CSV-Format für Eigenschaftsdiagrammdaten oder als N-Tripel für RDF-Daten. Außerdem wird die Datei training-data-configuration.json erstellt und zum selben Amazon-S3-Speicherort geschrieben wie die exportierten Trainingsdaten.

  • cloneCluster   –   Wenn diese Option auf true festgelegt ist, klont der Exportvorgang den DB-Cluster, exportiert Daten aus dem Klon und löscht den Klon, wenn der Vorgang abgeschlossen ist.

  • useIamAuth   –   Wenn für den DB-Cluster die IAM-Authentifizierung aktiviert ist, müssen Sie dieses Feld auf true festlegen.

Der Exportvorgang bietet auch mehrere Möglichkeiten für das Filtern der exportierten Daten (siehe diese Beispiele).

Verwenden des additionalParams-Objekts zur Optimierung des Exports von Modelltrainingsinformationen

Das additionalParams-Objekt enthält Felder, mit denen Sie Machine-Learning-Klassenbezeichnungen und -Features zu Trainingszwecken angeben und die Erstellung einer Trainingsdaten-Konfigurationsdatei steuern können.

Der Exportvorgang kann nicht automatisch ableiten, welche Knoten- und Kanteneigenschaften als Beispiele für Machine-Learning-Klassenbezeichnungen zu Trainingszwecken dienen sollen. Außerdem kann er nicht automatisch die beste Feature-Kodierung für numerische, kategorische und Texteigenschaften ableiten. Daher müssen Sie in den Feldern des additionalParams-Objekts Hinweise bereitstellen, um dies anzugeben oder die Standardkodierung zu überschreiben.

Für Eigenschaftsdiagrammdaten könnte die Struktur der obersten Ebene von additionalParams in einer Exportanforderung wie folgt aussehen:

{ "command": "export-pg", "outputS3Path": "s3://(your Amazon S3 bucket)/neptune-export", "params": { "endpoint": "(your Neptune endpoint DNS name)", "profile": "neptune_ml" }, "additionalParams": { "neptune_ml": { "version": "v2.0", "targets": [ (an array of node and edge class label targets) ], "features": [ (an array of node feature hints) ] } } }

Für RDF-Daten könnte die Struktur der obersten Ebene wie folgt aussehen:

{ "command": "export-rdf", "outputS3Path": "s3://(your Amazon S3 bucket)/neptune-export", "params": { "endpoint": "(your Neptune endpoint DNS name)", "profile": "neptune_ml" }, "additionalParams": { "neptune_ml": { "version": "v2.0", "targets": [ (an array of node and edge class label targets) ] } } }

Sie können im Feld jobs auch mehrere Exportkonfigurationen angeben:

{ "command": "export-pg", "outputS3Path": "s3://(your Amazon S3 bucket)/neptune-export", "params": { "endpoint": "(your Neptune endpoint DNS name)", "profile": "neptune_ml" }, "additionalParams" : { "neptune_ml" : { "version": "v2.0", "jobs": [ { "name" : "(training data configuration name)", "targets": [ (an array of node and edge class label targets) ], "features": [ (an array of node feature hints) ] }, { "name" : "(another training data configuration name)", "targets": [ (an array of node and edge class label targets) ], "features": [ (an array of node feature hints) ] } ] } } }

Elemente der obersten Ebene im Feld neptune_ml in additionalParams

Das Element version in neptune_ml

Gibt die Version der Trainingsdatenkonfiguration an, die generiert werden soll.

(Optional), Typ: string, Standard: v2.0.

Wenn Sie version einfügen, legen Sie dies auf v2.0 fest.

Das Feld jobs in neptune_ml

Enthält eine Reihe von Trainingsdaten-Konfigurationsobjekten, von denen jedes einen Datenverarbeitungsauftrag definiert, und enthält:

  • name   –   Der Name der Trainingsdatenkonfiguration, die erstellt werden soll.

    Beispielsweise ergibt eine Trainingsdatenkonfiguration mit dem Namen „"job-number-1“ eine Trainingsdaten-Konfigurationsdatei mit dem Namen job-number-1.json.

  • targets   –   Ein JSON-Array mit Knoten- und Kanten-Klassenbezeichnungszielen, die die Machine-Learning-Klassenbezeichnungen für Trainingszwecke darstellen. Siehe Das Feld targets in einem neptune_ml-Objekt.

  • features   –   Ein JSON-Array mit Knoteneigenschaft-Features. Siehe Das Feld features in neptune_ml.