Traitement des données graphiques exportées depuis Neptune à des fins d'entraînement - Amazon Neptune

Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.

Traitement des données graphiques exportées depuis Neptune à des fins d'entraînement

L'étape de traitement des données utilise les données du graphe Neptune créées par le processus d'exportation et crée les informations qui sont utilisées par la Deep Graph Library (DGL) pendant la formation. Cela inclut la réalisation de divers mappages et transformations de données :

  • Analyse des nœuds et des arêtes pour créer les fichiers de mappage graphique et d'identification requis par DGL.

  • Conversion des propriétés de nœud et d'arête en fonctionnalités de nœud et d'arête requises par DGL.

  • Diviser les données en jeux d'entraînement, de test et de validation.

Gestion de l'étape de traitement des données pour Neptune ML

Après avoir exporté les données de Neptune que vous souhaitez utiliser pour l'entraînement des modèles, vous pouvez démarrer une tâche de traitement des données à l'aide d'une commandecurl (ouawscurl) telle que la suivante :

curl \ -X POST https://(your Neptune endpoint)/ml/dataprocessing \ -H 'Content-Type: application/json' \ -d '{ "inputDataS3Location" : "s3://(Amazon S3 bucket name)/(path to your input folder)", "id" : "(a job ID for the new job)", "processedDataS3Location" : "s3://(S3 bucket name)/(path to your output folder)", "configFileName" : "training-job-configuration.json" }'

Les détails de l'utilisation de cette commande sont expliqués dansLa commande de traitement des données, ainsi que des informations sur la façon d'obtenir l'état d'une tâche en cours, comment arrêter une tâche en cours et comment répertorier toutes les tâches en cours.

Traitement des données graphiques mises à jour pour Neptune ML

Vous pouvez également fournir unpreviousDataProcessingJobId à l'API pour vous assurer que la nouvelle tâche de traitement des données utilise la même méthode de traitement qu'une tâche précédente. Cela est nécessaire lorsque vous souhaitez obtenir des prévisions pour des données graphiques mises à jour dans Neptune, soit en réentraînant l'ancien modèle sur les nouvelles données, soit en recalculant les artefacts du modèle sur les nouvelles données.

Pour ce faire, utilisez une commandecurl (ouawscurl) comme celle-ci :

curl \ -X POST https://(your Neptune endpoint)/ml/dataprocessing \ -H 'Content-Type: application/json' \ -d '{ "inputDataS3Location" : "s3://(Amazon S3 bucket name)/(path to your input folder)", "id" : "(a job ID for the new job)", "processedDataS3Location" : "s3://(Amazon S3 bucket name)/(path to your output folder)", "previousDataProcessingJobId", "(the job ID of the previous data-processing job)"}'

Définissez la valeur dupreviousDataProcessingJobId paramètre sur l'ID de tâche de la tâche de traitement des données précédente qui correspond au modèle entraîné.

Note

Les suppressions de nœuds dans le graphe mis à jour ne sont actuellement pas prises en charge. Si des nœuds ont été supprimés dans un graphe mis à jour, vous devez démarrer une toute nouvelle tâche de traitement des données plutôt que de les utiliserpreviousDataProcessingJobId.