Traitement des données à l'aide de ladataprocessingcommande - Amazon Neptune

Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.

Traitement des données à l'aide de ladataprocessingcommande

Vous utilisez le Neptune MLdataprocessingpour créer une tâche de traitement de données, vérifier son statut, l'arrêter ou répertorier toutes les tâches de traitement de données actives.

Création d'une tâche de traitement de données à l'aide de Neptune MLdataprocessingcommande

Un Neptune ML typiquedataprocessingpour créer une nouvelle tâche ressemble à ceci :

curl \ -X POST https://(your Neptune endpoint)/ml/dataprocessing \ -H 'Content-Type: application/json' \ -d '{ "inputDataS3Location" : "s3://(Amazon S3 bucket name)/(path to your input folder)", "id" : "(a job ID for the new job)", "processedDataS3Location" : "s3://(S3 bucket name)/(path to your output folder)" }'

Une commande permettant d'initier un retraitement incrémentiel ressemble à ceci :

curl \ -X POST https://(your Neptune endpoint)/ml/dataprocessing \ -H 'Content-Type: application/json' \ -d '{ "inputDataS3Location" : "s3://(Amazon S3 bucket name)/(path to your input folder)", "id" : "(a job ID for this job)", "processedDataS3Location" : "s3://(S3 bucket name)/(path to your output folder)" "previousDataProcessingJobId" : "(the job ID of a previously completed job to update)" }'

Paramètres pourdataprocessingCréation d'emplois

  • id— (Facultatif) Identifiant unique pour la nouvelle tâche.

    Type: string Par défaut : UUID automatiquement généré.

  • previousDataProcessingJobId— (Facultatif) L'ID de tâche d'un travail de traitement de données terminé exécuté sur une version antérieure des données.

    Type: string Par défaut :aucune.

    Remarque : Utilisez cette option pour le traitement incrémentiel des données, pour mettre à jour le modèle lorsque les données du graphique ont changé (mais pas lorsque les données ont été supprimées).

  • inputDataS3Location— (Obligatoire) URI de l'emplacement Amazon S3 où vous souhaitez que SageMaker télécharge les données nécessaires à l'exécution du travail de traitement des données.

    Type: string

  • processedDataS3Location— (Obligatoire) URI de l'emplacement Amazon S3 où vous souhaitez que SageMaker enregistre les résultats d'un travail de traitement de données.

    Type: string

  • sagemakerIamRoleArn— (Facultatif) ARN d'un rôle IAM pour l'exécution de SageMaker.

    Type: string Remarque : Cela doit être répertorié dans le groupe de paramètres de votre cluster de bases de données, sinon une erreur se produira.

  • neptuneIamRoleArn— (Facultatif) L'Amazon Resource Name (ARN) d'un rôle IAM que SageMaker peut assumer pour effectuer des tâches en votre nom.

    Type: string Remarque : Cela doit être répertorié dans le groupe de paramètres de votre cluster de bases de données, sinon une erreur se produira.

  • processingInstanceType— (Facultatif) Type d'instance ML utilisée pendant le traitement des données. Sa mémoire doit être suffisamment grande pour contenir le jeu de données traité.

    Type: string Par défaut: le plus petitml.r5type dont la mémoire est dix fois supérieure à la taille des données graphiques exportées sur le disque.

    Remarque : Neptune ML peut sélectionner automatiquement le type d'instance. Consulter Sélection d'une instance pour le traitement des données.

  • processingInstanceVolumeSizeInGB— (Facultatif) Taille du volume de disque de l'instance de traitement. Les données d'entrée et les données traitées sont stockées sur disque. La taille du volume doit donc être suffisamment grande pour contenir les deux ensembles de données.

    Type: entier. Par défaut :0.

    Remarque : S'il n'est pas spécifié ou 0, Neptune ML choisit automatiquement la taille du volume en fonction de la taille des données.

  • processingTimeOutInSeconds— (Facultatif) Délai d'expiration en secondes pour le travail de traitement des données.

    Type: entier. Par défaut :86,400(1 day).

  • modelType— (Facultatif) L'un des deux types de modèles actuellement pris en charge par Neptune ML : les modèles de graphes hétérogènes (heterogeneous), et le graphique des connaissances (kge).

    Type: string Par défaut :aucune.

    Remarque : S'il n'est pas spécifié, Neptune ML choisit automatiquement le type de modèle en fonction des données.

  • configFileName— (Facultatif) Fichier de spécification de données qui décrit comment charger les données de graphe exportées pour la formation. Le fichier est automatiquement généré par la boîte à outils d'exportation Neptune.

    Type: string Par défaut :training-data-configuration.json.

  • subnets— (Facultatif) Identifiant des sous-réseaux dans le VPC Neptune.

    Type: liste de chaînes. Par défaut :aucune.

  • securityGroupIds— (Facultatif) Identifiant du groupe de sécurité VPC.

    Type: liste de chaînes. Par défaut :aucune.

  • volumeEncryptionKMSKey— (Facultatif) LeAWS Key Management Service(AWS KMS) que SageMaker utilise pour chiffrer les données sur le volume de stockage attaché aux instances de calcul ML qui exécutent la tâche de traitement.

    Type: string Par défaut :aucune.

  • s3OutputEncryptionKMSKey— (Facultatif) LeAWS Key Management Service(AWS KMS) que SageMaker utilise pour chiffrer la sortie de la tâche de formation.

    Type: string Par défaut :aucune.

Obtention du statut d'une tâche de traitement de données à l'aide de Neptune MLdataprocessingcommande

Un échantillon de Neptune MLdataprocessingLa commande pour l'état d'une tâche est similaire à ce qui suit :

curl -s \ "https://(your Neptune endpoint)/ml/dataprocessing/(the job ID)" \ | python -m json.tool

Paramètres pourdataprocessingJob status

  • id— (Obligatoire) Identifiant unique de la tâche de traitement des données.

    Type: string

  • neptuneIamRoleArn— (Facultatif) ARN d'un rôle IAM qui fournit à Neptune un accès aux ressources SageMaker et Amazon S3.

    Type: string Remarque : Cela doit être répertorié dans le groupe de paramètres de votre cluster de bases de données, sinon une erreur se produira.

Arrêt d'un travail de traitement de données à l'aide de Neptune MLdataprocessingcommande

Un échantillon de Neptune MLdataprocessingLa commande pour arrêter une tâche est similaire à ce qui suit :

curl -s \ -X DELETE "https://(your Neptune endpoint)/ml/dataprocessing/(the job ID)"

Ou ceci :

curl -s \ -X DELETE "https://(your Neptune endpoint)/ml/dataprocessing/(the job ID)?clean=true"

Paramètres pourdataprocessingstop job

  • id— (Obligatoire) Identifiant unique de la tâche de traitement des données.

    Type: string

  • neptuneIamRoleArn— (Facultatif) ARN d'un rôle IAM qui fournit à Neptune un accès aux ressources SageMaker et Amazon S3.

    Type: string Remarque : Cela doit être répertorié dans le groupe de paramètres de votre cluster de bases de données, sinon une erreur se produira.

  • clean— (Facultatif) Cet indicateur spécifie que tous les artefacts Amazon S3 doivent être supprimés lorsque la tâche est arrêtée.

    Type : Booléen. Par défaut :FALSE.

Liste des tâches de traitement de données actives à l'aide du Neptune MLdataprocessingcommande

Un échantillon de Neptune MLdataprocessingLa commande pour afficher les tâches actives est similaire à ce qui suit :

curl -s "https://(your Neptune endpoint)/ml/dataprocessing"

Ou ceci :

curl -s "https://(your Neptune endpoint)/ml/dataprocessing?maxItems=3"

Paramètres pourdataprocessingListe des tâches

  • maxItems— (Facultatif) Nombre maximum d'éléments à renvoyer.

    Type: entier. Par défaut : 10.Valeur maximale autorisée :1024.

  • neptuneIamRoleArn— (Facultatif) ARN d'un rôle IAM qui fournit à Neptune un accès aux ressources SageMaker et Amazon S3.

    Type: string Remarque : Cela doit être répertorié dans le groupe de paramètres de votre cluster de bases de données, sinon une erreur se produira.