Administración del procesamiento de datos Procesamiento actualizado

Procesamiento de los datos de gráficos exportados de Neptune para el entrenamiento

El paso de procesamiento de datos toma los datos de gráficos de Neptune creados por el proceso de exportación y crea la información que utiliza la biblioteca Deep Graph Library (DGL) durante el entrenamiento. Esto incluye realizar varios mapeos y transformaciones de datos:

Analizar nodos y bordes para crear los archivos de mapeo de gráficos e identificador que requiere DGL.
Convertir las propiedades de nodos y bordes en las características de nodos y bordes que requiere DGL.
Dividir los datos en conjuntos de entrenamiento, validación y prueba.

Administración del paso de procesamiento de datos para Neptune ML

Una vez que haya exportado los datos de Neptune que desee utilizar para el entrenamiento de modelos, puede iniciar un trabajo de procesamiento de datos mediante un comando curl (o awscurl) como el siguiente:


curl \
  -X POST https://(your Neptune endpoint)/ml/dataprocessing \
  -H 'Content-Type: application/json' \
  -d '{
        "inputDataS3Location" : "s3://(Amazon S3 bucket name)/(path to your input folder)",
        "id" : "(a job ID for the new job)",
        "processedDataS3Location" : "s3://(S3 bucket name)/(path to your output folder)",
        "configFileName" : "training-job-configuration.json"
      }'

Los detalles sobre cómo usar este comando se explican en El comando de procesamiento de datos, junto con información sobre cómo obtener el estado de un trabajo en ejecución, cómo detener un trabajo en ejecución y cómo enumerar todos los trabajos en ejecución.

Procesamiento de datos de gráficos actualizados para Neptune ML

También puede proporcionar un previousDataProcessingJobId a la API para garantizar que el nuevo trabajo de procesamiento de datos utilice el mismo método de procesamiento que el trabajo anterior. Esto es necesario si desea obtener predicciones para datos de gráficos actualizados en Neptune, ya sea reentrenando el modelo antiguo con los nuevos datos o volviendo a calcular los artefactos de modelos en los nuevos datos.

Para ello, utilice un comando curl (o awscurl) como este:


curl \
  -X POST https://(your Neptune endpoint)/ml/dataprocessing \
  -H 'Content-Type: application/json' \
  -d '{ "inputDataS3Location" : "s3://(Amazon S3 bucket name)/(path to your input folder)",
        "id" : "(a job ID for the new job)",
        "processedDataS3Location" : "s3://(Amazon S3 bucket name)/(path to your output folder)",
        "previousDataProcessingJobId", "(the job ID of the previous data-processing job)"}'

Establezca el valor del parámetro previousDataProcessingJobId en el ID de trabajo del trabajo de procesamiento de datos anterior que corresponda al modelo entrenado.

nota

Actualmente, no se admiten las eliminaciones de nodos en el gráfico actualizado. Si se han eliminado los nodos de un gráfico actualizado, debe iniciar un trabajo de procesamiento de datos completamente nuevo en lugar de usar previousDataProcessingJobId.

Aviso JavaScript está desactivado o no está disponible en su navegador.

Para utilizar la documentación de AWS, debe estar habilitado JavaScript. Para obtener más información, consulte las páginas de ayuda de su navegador.

Convenciones del documento

Ejemplos

Codificación de características