Processamento de dados usando o comando dataprocessing - Amazon Neptune

As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.

Processamento de dados usando o comando dataprocessing

Use o comando dataprocessing do Neptune ML para criar um trabalho de processamento de dados, conferir o status, interrompê-lo ou listar todos os trabalhos ativos de processamento de dados.

Criar um trabalho de processamento de dados usando o comando dataprocessing do Neptune ML

Um comando dataprocessing típico do Neptune ML para criar um trabalho tem a seguinte aparência:

curl \ -X POST https://(your Neptune endpoint)/ml/dataprocessing \ -H 'Content-Type: application/json' \ -d '{ "inputDataS3Location" : "s3://(Amazon S3 bucket name)/(path to your input folder)", "id" : "(a job ID for the new job)", "processedDataS3Location" : "s3://(S3 bucket name)/(path to your output folder)" }'

Um comando para iniciar o reprocessamento incremental tem a seguinte aparência:

curl \ -X POST https://(your Neptune endpoint)/ml/dataprocessing \ -H 'Content-Type: application/json' \ -d '{ "inputDataS3Location" : "s3://(Amazon S3 bucket name)/(path to your input folder)", "id" : "(a job ID for this job)", "processedDataS3Location" : "s3://(S3 bucket name)/(path to your output folder)" "previousDataProcessingJobId" : "(the job ID of a previously completed job to update)" }'
Parâmetros para criação de trabalhos dataprocessing
  • id: (opcional) um identificador exclusivo do novo trabalho.

    Tipo: string. Padrão: um UUID gerado automaticamente.

  • previousDataProcessingJobId: (opcional) o ID de um trabalho de processamento de dados concluído executado em uma versão anterior dos dados.

    Tipo: string. Padrão: nenhum.

    Observação: use para processamento incremental de dados, para atualizar o modelo quando os dados do grafo forem alterados (mas não quando os dados forem excluídos).

  • inputDataS3Location: (obrigatório) o URI do local do Amazon S3 em que você deseja que o SageMaker baixe os dados necessários para executar o trabalho de processamento de dados.

    Tipo: string.

  • processedDataS3Location: (obrigatório) o URI do local do Amazon S3 onde você deseja que o SageMaker salve os resultados do trabalho de processamento de dados.

    Tipo: string.

  • sagemakerIamRoleArn: (opcional) o ARN de um perfil do IAM para execução do SageMaker.

    Tipo: string. Observação: deve estar listado no grupo de parâmetros do cluster de banco de dados ou ocorrerá um erro.

  • neptuneIamRoleArn: (opcional) o nome do recurso da Amazon (ARN) de um perfil do IAM que o SageMaker pode assumir para realizar tarefas em seu nome.

    Tipo: string. Observação: deve estar listado no grupo de parâmetros do cluster de banco de dados ou ocorrerá um erro.

  • processingInstanceType: (opcional) o tipo de instância de ML usada durante o processamento de dados. A memória deve ser grande o suficiente para armazenar o conjunto de dados processado.

    Tipo: string. Padrão: o menor tipo ml.r5 cuja memória é dez vezes maior que o tamanho dos dados de grafos exportados no disco.

    Observação: o Neptune ML pode selecionar o tipo de instância automaticamente. Consulte Selecionar uma instância para processamento de dados.

  • processingInstanceVolumeSizeInGB: (opcional) o tamanho do volume do disco da instância de processamento. Tanto os dados de entrada quanto os dados processados são armazenados em disco, portanto, o tamanho do volume deve ser grande o suficiente para conter os dois conjuntos de dados.

    Tipo: número inteiro. Padrão: 0.

    Observação: se não for especificado ou for 0, o Neptune ML escolherá o tamanho do volume automaticamente com base no tamanho dos dados.

  • processingTimeOutInSeconds: (opcional) tempo limite em segundos do trabalho de processamento de dados.

    Tipo: número inteiro. Padrão: 86,400 (um dia).

  • modelType: (opcional) um dos dois tipos de modelo que o Neptune ML aceita no momento: modelos de grafos heterogêneos (heterogeneous) e grafo de conhecimento (kge).

    Tipo: string. Padrão: nenhum.

    Observação: se não for especificado, o Neptune ML escolherá o tipo de modelo automaticamente com base nos dados.

  • configFileName: (opcional) um arquivo de especificação de dados que descreve como carregar os dados de grafos exportados para treinamento. O arquivo é gerado automaticamente pelo kit de ferramentas de exportação do Neptune.

    Tipo: string. Padrão: training-data-configuration.json.

  • subnets: (opcional) os IDs das sub-redes na VPC do Neptune.

    Tipo: lista de strings. Padrão: nenhum.

  • securityGroupIds: (opcional) os IDs do grupo de segurança da VPC.

    Tipo: lista de strings. Padrão: nenhum.

  • volumeEncryptionKMSKey: (opcional) a chave AWS Key Management Service (AWS KMS) que o SageMaker usa para criptografar dados no volume de armazenamento anexado às instâncias de computação de ML que executam o trabalho de processamento.

    Tipo: string. Padrão: nenhum.

  • enableInterContainerTrafficEncryption: (opcional) habilite ou desabilite a criptografia de tráfego entre contêineres em trabalhos de treinamento ou ajuste de hiperparâmetros.

    Tipo: booliano. Padrão: verdadeiro.

    nota

    O parâmetro enableInterContainerTrafficEncryption só está disponível na versão 1.2.0.2.R3 do mecanismo.

  • s3OutputEncryptionKMSKey: (opcional) a chave AWS Key Management Service (AWS KMS) que o SageMaker usa para criptografar a saída do trabalho de treinamento.

    Tipo: string. Padrão: nenhum.

Obter o status de um trabalho de processamento de dados usando o comando dataprocessing do Neptune ML

Um exemplo de comando dataprocessing do Neptune ML para o status de um trabalho tem a seguinte aparência:

curl -s \ "https://(your Neptune endpoint)/ml/dataprocessing/(the job ID)" \ | python -m json.tool
Parâmetros para o status do trabalho dataprocessing
  • id: (obrigatório) o identificador exclusivo do trabalho de processamento de dados.

    Tipo: string.

  • neptuneIamRoleArn: (opcional) o ARN de um perfil do IAM que fornece ao Neptune acesso aos recursos do SageMaker e do Amazon S3.

    Tipo: string. Observação: deve estar listado no grupo de parâmetros do cluster de banco de dados ou ocorrerá um erro.

Interromper um trabalho de processamento de dados usando o comando dataprocessing do Neptune ML

Um exemplo de comando dataprocessing do Neptune ML para interromper um trabalho tem a seguinte aparência:

curl -s \ -X DELETE "https://(your Neptune endpoint)/ml/dataprocessing/(the job ID)"

Ou esta:

curl -s \ -X DELETE "https://(your Neptune endpoint)/ml/dataprocessing/(the job ID)?clean=true"
Parâmetros para um trabalho de interrupção dataprocessing
  • id: (obrigatório) o identificador exclusivo do trabalho de processamento de dados.

    Tipo: string.

  • neptuneIamRoleArn: (opcional) o ARN de um perfil do IAM que fornece ao Neptune acesso aos recursos do SageMaker e do Amazon S3.

    Tipo: string. Observação: deve estar listado no grupo de parâmetros do cluster de banco de dados ou ocorrerá um erro.

  • clean: (opcional) esse sinalizador especifica que todos os artefatos do Amazon S3 devem ser excluídos quando o trabalho é interrompido.

    Tipo: booliano. Padrão: FALSE.

Listar trabalhos de processamento de dados ativos usando o comando dataprocessing do Neptune ML

Um exemplo de comando dataprocessing do Neptune ML para listar trabalhos ativos tem a seguinte aparência:

curl -s "https://(your Neptune endpoint)/ml/dataprocessing"

Ou esta:

curl -s "https://(your Neptune endpoint)/ml/dataprocessing?maxItems=3"
Parâmetros para trabalhos de lista dataprocessing
  • maxItems: (opcional) o número máximo de itens a serem gerados.

    Tipo: número inteiro. Padrão: 10. Valor máximo permitido: 1024.

  • neptuneIamRoleArn: (opcional) o ARN de um perfil do IAM que fornece ao Neptune acesso aos recursos do SageMaker e do Amazon S3.

    Tipo: string. Observação: deve estar listado no grupo de parâmetros do cluster de banco de dados ou ocorrerá um erro.