Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.
Utilisation de l'neptune-export
outil ou du service Neptune-Export pour exporter des données depuis Neptune pour Neptune ML
Neptune ML nécessite que vous fournissiez des données d'entraînement à la Deep Graph Library (DGL)
Vous pouvez exporter des données depuis Neptune à l'aide du service Neptune-Export ou de l'neptune-exportutilitaire. Le service et l'outil de ligne de commande publient les données vers Amazon Simple Storage Service (Amazon S3) au format CSV, chiffrées à l'aide du chiffrement côté serveur Amazon S3 (SSE-S3
). Consultez Fichiers exportés par Neptune-Export etneptune-export.
En outre, lorsque vous configurez une exportation de données d'entraînement pour Neptune ML, la tâche d'exportation crée et publie un fichier de configuration d'entraînement chiffré avec les données exportées. Par défaut, ce fichier est nommétraining-data-configuration.json
.
Exemples d'utilisation du service Neptune-Export pour exporter des données de formation pour Neptune ML
Cette demande exporte des données d'apprentissage sous forme de graphes de propriétés pour une tâche de classification de nœuds :
curl \
(your NeptuneExportApiUri)
\ -X POST \ -H 'Content-Type: application/json' \ -d '{ "command": "export-pg", "outputS3Path": "s3://(your Amazon S3 bucket)
/neptune-export", "params": { "endpoint": "(your Neptune endpoint DNS name)
", "profile": "neptune_ml" }, "additionalParams": { "neptune_ml": { "version": "v2.0", "targets": [ { "node": "Movie", "property": "genre", "type": "classification" } ] } } }'
Cette demande exporte les données d'entraînement RDF pour une tâche de classification de nœuds :
curl \
(your NeptuneExportApiUri)
\ -X POST \ -H 'Content-Type: application/json' \ -d '{ "command": "export-rdf", "outputS3Path": "s3://(your Amazon S3 bucket)
/neptune-export", "params": { "endpoint": "(your Neptune endpoint DNS name)
", "profile": "neptune_ml" }, "additionalParams": { "neptune_ml": { "version": "v2.0", "targets": [ { "node": "http://aws.amazon.com/neptune/csv2rdf/class/Movie", "predicate": "http://aws.amazon.com/neptune/csv2rdf/datatypeProperty/genre", "type": "classification" } ] } } }'
Champs à définir dans l'params
objet lors de l'exportation de données d'entraînement
L'params
objet d'une demande d'exportation peut contenir différents champs, comme décrit dans la paramsdocumentation. Les suivants sont les plus pertinents pour l'exportation de données de formation liées à l'apprentissage automatique :
-
endpoint
— Permet deendpoint
spécifier le point de terminaison d'une instance Neptune de votre cluster de base de données que le processus d'exportation peut interroger pour extraire des données. -
profile
— Leprofile
champ de l'params
objet doit être défini surneptune-ml
.Cela permet au processus d'exportation de formater les données exportées de manière appropriée pour l'apprentissage des modèles Neptune ML, au format CSV pour les données des graphes de propriétés ou sous forme de N-Triples pour les données RDF. Cela entraîne également la création et l'écriture d'un
training-data-configuration.json
fichier dans le même emplacement Amazon S3 que les données d'entraînement exportées. -
cloneCluster
— Si ce paramètre est défini surtrue
, le processus d'exportation clone votre cluster de base de données, exporte à partir du clone, puis supprime le clone lorsqu'il est terminé. -
useIamAuth
— Si l'authentification IAM est activée sur votre cluster de base de données, vous devez inclure ce champ défini surtrue
.
Le processus d'exportation propose également plusieurs méthodes pour filtrer les données que vous exportez (voir ces exemples).
Utilisation de l'additionalParams
objet pour régler l'exportation des informations d'entraînement du modèle
L'additionalParams
objet contient des champs que vous pouvez utiliser pour spécifier les étiquettes et les fonctionnalités des classes d'apprentissage automatique à des fins de formation et pour guider la création d'un fichier de configuration des données d'apprentissage.
Le processus d'exportation ne peut pas déduire automatiquement quelles propriétés de nœud et d'arête doivent être utilisées comme étiquettes de classe d'apprentissage automatique à des fins de formation. Il ne peut pas non plus déduire automatiquement le meilleur codage des caractéristiques pour les propriétés numériques, catégorielles et textuelles. Vous devez donc fournir des conseils à l'aide des champs de l'additionalParams
objet pour spécifier ces éléments ou pour remplacer le codage par défaut.
Pour les données du graphe de propriétés, la structure de haut niveauadditionalParams
d'une demande d'exportation peut ressembler à ceci :
{ "command": "export-pg", "outputS3Path": "s3://
(your Amazon S3 bucket)
/neptune-export", "params": { "endpoint": "(your Neptune endpoint DNS name)
", "profile": "neptune_ml" }, "additionalParams": { "neptune_ml": { "version": "v2.0", "targets": [(an array of node and edge class label targets)
], "features": [(an array of node feature hints)
] } } }
Pour les données RDF, leur structure de niveau supérieur peut ressembler à ceci :
{ "command": "export-rdf", "outputS3Path": "s3://
(your Amazon S3 bucket)
/neptune-export", "params": { "endpoint": "(your Neptune endpoint DNS name)
", "profile": "neptune_ml" }, "additionalParams": { "neptune_ml": { "version": "v2.0", "targets": [(an array of node and edge class label targets)
] } } }
Vous pouvez également fournir plusieurs configurations d'exportation à l'aide dujobs
champ :
{ "command": "export-pg", "outputS3Path": "s3://
(your Amazon S3 bucket)
/neptune-export", "params": { "endpoint": "(your Neptune endpoint DNS name)
", "profile": "neptune_ml" }, "additionalParams" : { "neptune_ml" : { "version": "v2.0", "jobs": [ { "name" : "(training data configuration name)
", "targets": [(an array of node and edge class label targets)
], "features": [(an array of node feature hints)
] }, { "name" : "(another training data configuration name)
", "targets": [(an array of node and edge class label targets)
], "features": [(an array of node feature hints)
] } ] } } }
Des éléments de haut niveau dans leneptune_ml
domaineadditionalParams
L'version
élément dansneptune_ml
Spécifie la version de configuration des données d'entraînement à générer.
(Facultatif), Type : chaîne, Par défaut : « v2.0".
Si vous l'incluezversion
, définissez-le surv2.0
.
Lejobs
terrain dansneptune_ml
Contient un tableau d'objets de configuration des données d'entraînement, chacun définissant une tâche de traitement des données, et contient :
-
name
— Le nom de la configuration des données d'entraînement à créer.Par exemple, une configuration de données d'entraînement portant le nom « job-number-1 » donne lieu à un fichier de configuration de données d'entraînement nommé
job-number-1.json
. -
targets
— Un tableau JSON de cibles d'étiquettes de classes de nœuds et de bords qui représentent les étiquettes de classe d'apprentissage automatique à des fins de formation. Consultez Letargets champ d'unneptune_ml objet. -
features
— Tableau JSON contenant les caractéristiques des propriétés des nœuds. Consultez Lefeatures terrain dansneptune_ml.