Utilisation deneptune-exportoutil ou service Neptune-Export pour exporter des données depuis Neptune pour Neptune ML - Amazon Neptune

Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.

Utilisation deneptune-exportoutil ou service Neptune-Export pour exporter des données depuis Neptune pour Neptune ML

Neptune ML exige que vous fournissiez des données de formation pour leBibliothèque Deep Graph (DGL)pour créer et évaluer des modèles.

Vous pouvez exporter des données depuis Neptune à l'aide de l'optionService Neptune Export, ouneptune-exportutilité. Le service et l'outil de ligne de commande publient des données sur Amazon Simple Storage Service (Amazon S3) au format CSV, chiffrées à l'aide d'un chiffrement côté serveur Amazon S3 (SSE-S3). Consulter Fichiers exportés par Neptune-Export etneptune-export.

En outre, lorsque vous configurez une exportation de données de formation pour Neptune ML, la tâche d'exportation crée et publie un fichier de configuration chiffré de formation aux modèles avec les données exportées. Par défaut, ce fichier est nommétraining-data-configuration.json.

Exemples d'utilisation du service Neptune-Export pour exporter des données de formation pour Neptune ML

Cette demande exporte les données de formation de graphes de propriétés pour une tâche de classification de nœuds :

curl \ (your NeptuneExportApiUri) \ -X POST \ -H 'Content-Type: application/json' \ -d '{ "command": "export-pg", "outputS3Path": "s3://(your Amazon S3 bucket)/neptune-export", "params": { "endpoint": "(your Neptune endpoint DNS name)", "profile": "neptune_ml" }, "additionalParams": { "neptune_ml": { "version": "v2.0", "targets": [ { "node": "Movie", "property": "genre", "type": "classification" } ] } } }'

Cette demande exporte les données de formation RDF pour une tâche de classification de nœuds :

curl \ (your NeptuneExportApiUri) \ -X POST \ -H 'Content-Type: application/json' \ -d '{ "command": "export-rdf", "outputS3Path": "s3://(your Amazon S3 bucket)/neptune-export", "params": { "endpoint": "(your Neptune endpoint DNS name)", "profile": "neptune_ml" }, "additionalParams": { "neptune_ml": { "version": "v2.0", "targets": [ { "node": "http://aws.amazon.com/neptune/csv2rdf/class/Movie", "predicate": "http://aws.amazon.com/neptune/csv2rdf/datatypeProperty/genre", "type": "classification" } ] } } }'

Champs à définir dans leparamsobjet lors de l'exportation de données de formation

Leparamsdans une demande d'exportation peut contenir différents champs, comme décrit dans leparamsdocumentation. Les éléments suivants sont les plus pertinents pour l'exportation de données de formation Machine Learning :

  • endpoint— Utilisation deendpointpour spécifier un point de terminaison d'une instance Neptune dans votre cluster de bases de données que le processus d'exportation peut interroger pour extraire des données.

  • profile— Leprofiledans leparamsdoit être défini surneptune-ml.

    Cela oblige le processus d'exportation à formater les données exportées de manière appropriée pour la formation au modèle Neptune ML, au format CSV pour les données de graphe de propriétés ou en N-Triples pour les données RDF. Il provoque également unetraining-data-configuration.jsonfichier à créer et à écrire sur le même emplacement Amazon S3 que les données de formation exportées.

  • cloneCluster— Si la valeur est définie surtrue, le processus d'exportation clone votre cluster de bases de données, exporte depuis le clone, puis supprime le clone une fois terminé.

  • useIamAuth— Si votre cluster de bases de données possèdeAuthentification IAMactivé, vous devez inclure ce jeu de champs surtrue.

Le processus d'exportation fournit également plusieurs façons de filtrer les données que vous exportez (voirces exemples).

Utilisation deadditionalParamspour ajuster l'exportation des informations de formation au modèle

LeadditionalParamscontient des champs que vous pouvez utiliser pour spécifier des étiquettes et des fonctionnalités de classe d'apprentissage automatique à des fins de formation et guider la création d'un fichier de configuration de données de formation.

Le processus d'exportation ne peut pas déterminer automatiquement quels nœuds et propriétés Edge doivent être les étiquettes de classe d'apprentissage automatique pour servir d'exemples à des fins de formation. Il ne peut pas non plus déduire automatiquement le meilleur codage d'entités pour les propriétés numériques, catégorielles et textuelles. Vous devez donc fournir des conseils à l'aide des champs duadditionalParamspour spécifier ces éléments, ou pour remplacer le codage par défaut.

Pour les données de graphes de propriétés, la structure de niveau supérieur deadditionalParamsdans une demande d'exportation peut ressembler à ceci :

{ "command": "export-pg", "outputS3Path": "s3://(your Amazon S3 bucket)/neptune-export", "params": { "endpoint": "(your Neptune endpoint DNS name)", "profile": "neptune_ml" }, "additionalParams": { "neptune_ml": { "version": "v2.0", "targets": [ (an array of node and edge class label targets) ], "features": [ (an array of node feature hints) ] } } }

Pour les données RDF, sa structure de niveau supérieur peut ressembler à ceci :

{ "command": "export-rdf", "outputS3Path": "s3://(your Amazon S3 bucket)/neptune-export", "params": { "endpoint": "(your Neptune endpoint DNS name)", "profile": "neptune_ml" }, "additionalParams": { "neptune_ml": { "version": "v2.0", "targets": [ (an array of node and edge class label targets) ] } } }

Vous pouvez également fournir plusieurs configurations d'exportation, à l'aide dujobsfield:

{ "command": "export-pg", "outputS3Path": "s3://(your Amazon S3 bucket)/neptune-export", "params": { "endpoint": "(your Neptune endpoint DNS name)", "profile": "neptune_ml" }, "additionalParams" : { "neptune_ml" : { "version": "v2.0", "jobs": [ { "name" : "(training data configuration name)", "targets": [ (an array of node and edge class label targets) ], "features": [ (an array of node feature hints) ] }, { "name" : "(another training data configuration name)", "targets": [ (an array of node and edge class label targets) ], "features": [ (an array of node feature hints) ] } ] } } }

Éléments de niveau supérieur dans laneptune_mlfield inadditionalParams

Leversionélément dansneptune_ml

Spécifie la version de la configuration des données de formation à générer.

(Facultatif),Type: stringPar défaut: v2.0.

Si vous incluezversion, définissez-le surv2.0.

Lejobsfield inneptune_ml

Contient un tableau d'objets de configuration de données de formation, chacun définissant une tâche de traitement de données et contient :

  • name— Nom de la configuration des données de formation à créer.

    Par exemple, une configuration de données de formation portant le nom « numéro de travail 1 » donne lieu à un fichier de configuration de données de formation nomméjob-number-1.json.

  • targets: tableau JSON de cibles d'étiquettes de nœuds et de classes Edge qui représentent les étiquettes de classe d'apprentissage automatique à des fins de formation. Consulter Letargetsdans unneptune_mlobjet.

  • features— Un tableau JSON de fonctionnalités de propriétés de nœuds. Consulter Lefeaturesdansneptune_ml.