使用 dataprocessing 命令处理数据 - Amazon Neptune

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

使用 dataprocessing 命令处理数据

您可以使用 Neptune ML dataprocessing 命令创建数据处理任务、检查其状态、停止它或列出所有活动的数据处理任务。

使用 Neptune ML dataprocessing 命令创建数据处理任务

用于创建新任务的典型 Neptune ML dataprocessing 命令如下所示:

curl \ -X POST https://(your Neptune endpoint)/ml/dataprocessing \ -H 'Content-Type: application/json' \ -d '{ "inputDataS3Location" : "s3://(Amazon S3 bucket name)/(path to your input folder)", "id" : "(a job ID for the new job)", "processedDataS3Location" : "s3://(S3 bucket name)/(path to your output folder)" }'

启动增量重新处理的命令如下所示:

curl \ -X POST https://(your Neptune endpoint)/ml/dataprocessing \ -H 'Content-Type: application/json' \ -d '{ "inputDataS3Location" : "s3://(Amazon S3 bucket name)/(path to your input folder)", "id" : "(a job ID for this job)", "processedDataS3Location" : "s3://(S3 bucket name)/(path to your output folder)" "previousDataProcessingJobId" : "(the job ID of a previously completed job to update)" }'
用于创建 dataprocessing 任务的参数
  • id –(可选)新任务的唯一标识符。

    类型:字符串。默认:自动生成的 UUID。

  • previousDataProcessingJobId –(可选)在较早版本的数据上运行的已完成数据处理任务的任务 ID。

    类型:字符串。默认值

    注意:使用它进行增量数据处理,以便在图形数据发生变化(但不是在数据已被删除)时更新模型。

  • inputDataS3Location –(必需)您希望 SageMaker 下载运行数据处理任务所需数据的 Amazon S3 位置的 URI。

    类型:字符串。

  • processedDataS3Location –(必需)您希望 SageMaker 保存数据处理任务结果的 Amazon S3 位置的 URI。

    类型:字符串。

  • sagemakerIamRoleArn –(可选)用于执行 SageMaker 的 IAM 角色的 ARN。

    类型:字符串。注意:必须将其列在您的数据库集群参数组中,否则将发生错误。

  • neptuneIamRoleArn –(可选)SageMaker 可以代入以代表您执行任务的 IAM 角色的 Amazon 资源名称 (ARN)。

    类型:字符串。注意:必须将其列在您的数据库集群参数组中,否则将发生错误。

  • processingInstanceType –(可选)在数据处理期间使用的机器学习实例的类型。它的内存应该足够大,可以容纳处理后的数据集。

    类型:字符串。默认:内存比磁盘上导出的图形数据大小大十倍的最小 ml.r5 类型。

    注意:Neptune ML 可以自动选择实例类型。请参阅选择进行数据处理的实例

  • processingInstanceVolumeSizeInGB –(可选)处理实例的磁盘卷大小。输入数据和处理后的数据都存储在磁盘上,因此卷大小必须足够大,以容纳两个数据集。

    类型:整数。默认值0

    注意:如果未指定或为 0,则 Neptune ML 会根据数据大小自动选择卷大小。

  • processingTimeOutInSeconds –(可选)数据处理任务的超时(以秒为单位)。

    类型:整数。默认值86,400(1 天)。

  • modelType –(可选)Neptune ML 当前支持的两种模型类型之一:异构图模型 (heterogeneous) 和知识图谱 (kge)。

    类型:字符串。默认值

    注意:如果未指定,Neptune ML 会根据数据自动选择模型类型。

  • configFileName –(可选)描述如何加载导出的图形数据进行训练的数据规范文件。该文件由 Neptune 导出工具包自动生成。

    类型:字符串。默认值training-data-configuration.json

  • subnets –(可选)Neptune VPC 中子网的 ID。

    类型:字符串列表。默认值

  • securityGroupIds –(可选)VPC 安全组 ID。

    类型:字符串列表。默认值

  • volumeEncryptionKMSKey –(可选)AWS Key Management Service (AWS KMS) 密钥,SageMaker 使用它来加密附加到运行处理任务的 ML 计算实例的存储卷上的数据。

    类型:字符串。默认值

  • enableInterContainerTrafficEncryption –(可选)在训练或超参数调整任务中启用或禁用容器间流量加密。

    类型:布尔值。默认值True

    注意

    enableInterContainerTrafficEncryption 参数仅在引擎版本 1.2.0.2.R3 中可用。

  • s3OutputEncryptionKMSKey–(可选)SageMaker 用来加密训练任务输出的 AWS Key Management Service (AWS KMS) 密钥。

    类型:字符串。默认值

使用 Neptune ML dataprocessing 命令获取数据处理任务的状态

用于显示任务状态的示例 Neptune ML dataprocessing 命令如下所示:

curl -s \ "https://(your Neptune endpoint)/ml/dataprocessing/(the job ID)" \ | python -m json.tool
dataprocessing 任务状态的参数
  • id –(必需)数据处理任务的唯一标识符。

    类型:字符串。

  • neptuneIamRoleArn –(可选)向 Neptune 提供对 SageMaker 和 Amazon S3 资源的访问权限的 IAM 角色的 ARN。

    类型:字符串。注意:必须将其列在您的数据库集群参数组中,否则将发生错误。

使用 Neptune ML dataprocessing 命令停止数据处理任务

用于停止任务的示例 Neptune ML dataprocessing 命令如下所示:

curl -s \ -X DELETE "https://(your Neptune endpoint)/ml/dataprocessing/(the job ID)"

或者:

curl -s \ -X DELETE "https://(your Neptune endpoint)/ml/dataprocessing/(the job ID)?clean=true"
dataprocessing 停止任务的参数
  • id –(必需)数据处理任务的唯一标识符。

    类型:字符串。

  • neptuneIamRoleArn –(可选)向 Neptune 提供对 SageMaker 和 Amazon S3 资源的访问权限的 IAM 角色的 ARN。

    类型:字符串。注意:必须将其列在您的数据库集群参数组中,否则将发生错误。

  • clean –(可选)此标志指定在任务停止时应删除所有 Amazon S3 构件。

    类型:布尔值。默认值FALSE

使用 Neptune ML dataprocessing 命令列出处于活动状态的数据处理任务

用于列出活动任务的示例 Neptune ML dataprocessing 命令如下所示:

curl -s "https://(your Neptune endpoint)/ml/dataprocessing"

或者:

curl -s "https://(your Neptune endpoint)/ml/dataprocessing?maxItems=3"
dataprocessing 列出任务的参数
  • maxItems –(可选),表示要返回的最大项目数。

    类型:整数。默认值10允许的最大值1024

  • neptuneIamRoleArn –(可选)向 Neptune 提供对 SageMaker 和 Amazon S3 资源的访问权限的 IAM 角色的 ARN。

    类型:字符串。注意:必须将其列在您的数据库集群参数组中,否则将发生错误。