本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。
处理从 Neptune 导出的图形数据以用于训练
数据处理步骤采用导出过程创建的 Neptune 图形数据,并创建深度图表库 (DGL)
解析节点和边缘以构造 DGL 所需的图形映射和 ID 映射文件。
将节点和边缘属性转换为 DGL 所需的节点和边缘特征。
将数据拆分为训练集、验证集和测试集。
管理 Neptune ML 的数据处理步骤
从 Neptune 中导出要用于模型训练的数据后,可以使用 curl
(或 awscurl
)命令启动数据处理任务,如下所示:
curl \ -X POST https://
(your Neptune endpoint)
/ml/dataprocessing \ -H 'Content-Type: application/json' \ -d '{ "inputDataS3Location" : "s3://(Amazon S3 bucket name)
/(path to your input folder)
", "id" : "(a job ID for the new job)
", "processedDataS3Location" : "s3://(S3 bucket name)
/(path to your output folder)
", "configFileName" : "training-job-configuration.json" }'
dataprocessing 命令中解释了如何使用此命令的详细信息,以及有关如何获取正在运行的任务的状态、如何停止正在运行的任务以及如何列出所有正在运行的任务的信息。
处理 Neptune ML 的更新图形数据
您也可以向 API 提供 previousDataProcessingJobId
,以确保新的数据处理任务使用与先前任务相同的处理方法。当您想通过在新数据上重新训练旧模型,或者在新数据上重新计算模型构件,来获得对 Neptune 中更新的图形数据的预测时,这是必需的。
为此,您可以使用如下所示的 curl
(或 awscurl
)命令:
curl \ -X POST https://
(your Neptune endpoint)
/ml/dataprocessing \ -H 'Content-Type: application/json' \ -d '{ "inputDataS3Location" : "s3://(Amazon S3 bucket name)
/(path to your input folder)
", "id" : "(a job ID for the new job)
", "processedDataS3Location" : "s3://(Amazon S3 bucket name)
/(path to your output folder)
", "previousDataProcessingJobId", "(the job ID of the previous data-processing job)
"}'
将 previousDataProcessingJobId
参数的值设置为与训练后的模型对应的先前数据处理任务的任务 ID。
注意
目前不支持在更新的图形中删除节点。如果在更新的图形中移除了节点,则必须启动一个全新的数据处理任务,而不是使用 previousDataProcessingJobId
。