Gestione dell'elaborazione dei dati Elaborazione aggiornata

Elaborazione dei dati del grafo esportati da Neptune per l'addestramento

La fase di elaborazione dei dati utilizza i dati del grafo di Neptune creati dal processo di esportazione e crea le informazioni utilizzate da Deep Graph Library (DGL) durante l'addestramento. Include l'esecuzione di varie mappature e trasformazioni dei dati:

Analisi di nodi e archi per creare i file di mappatura di grafo e ID richiesti da DGL.
Conversione delle proprietà dei nodi e degli archi nelle funzionalità di nodi e archi richieste da DGL.
Divisione dei dati in set di addestramento, convalida e test.

Gestione della fase di elaborazione dei dati per Neptune ML

Dopo aver esportato da Neptune i dati da utilizzare per l'addestramento dei modelli, puoi avviare un processo di elaborazione dati utilizzando un comando curl (o awscurl) come il seguente:


curl \
  -X POST https://(your Neptune endpoint)/ml/dataprocessing \
  -H 'Content-Type: application/json' \
  -d '{
        "inputDataS3Location" : "s3://(Amazon S3 bucket name)/(path to your input folder)",
        "id" : "(a job ID for the new job)",
        "processedDataS3Location" : "s3://(S3 bucket name)/(path to your output folder)",
        "configFileName" : "training-job-configuration.json"
      }'

I dettagli su come utilizzare questo comando sono illustrati in Comando dataprocessing, insieme a informazioni su come recuperare lo stato di un processo in esecuzione, come arrestare un processo in esecuzione e come elencare tutti i processi in esecuzione.

Elaborazione dei dati del grafo aggiornati per Neptune ML

È inoltre possibile fornire un previousDataProcessingJobId all'API per garantire che il nuovo processo di elaborazione dei dati utilizzi lo stesso metodo di elaborazione di un processo precedente. Questo è necessario quando si desidera ottenere previsioni per i dati del grafo aggiornati in Neptune, riaddestrando il modello precedente sui nuovi dati o ricalcolando gli artefatti del modello sui nuovi dati.

A tale scopo, puoi usare un comando curl (o awscurl) nel seguente modo:


curl \
  -X POST https://(your Neptune endpoint)/ml/dataprocessing \
  -H 'Content-Type: application/json' \
  -d '{ "inputDataS3Location" : "s3://(Amazon S3 bucket name)/(path to your input folder)",
        "id" : "(a job ID for the new job)",
        "processedDataS3Location" : "s3://(Amazon S3 bucket name)/(path to your output folder)",
        "previousDataProcessingJobId", "(the job ID of the previous data-processing job)"}'

Imposta il valore del parametro previousDataProcessingJobId sull'ID processo del processo di elaborazione dati precedente corrispondente al modello addestrato.

Nota

Le eliminazioni dei nodi nel grafo aggiornato non sono attualmente supportate. Se i nodi sono stati rimossi in un grafo aggiornato, è necessario avviare un processo di elaborazione dei dati completamente nuovo anziché usare previousDataProcessingJobId.

Avvertimento JavaScript è disabilitato o non è disponibile nel tuo browser.

Per usare la documentazione AWS, JavaScript deve essere abilitato. Consulta le pagine della guida del browser per le istruzioni.

Convenzioni dei documenti

Esempi

Codifica delle funzionalità