As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.
Processamento de dados usando o comando dataprocessing
Use o comando dataprocessing
do Neptune ML para criar um trabalho de processamento de dados, conferir o status, interrompê-lo ou listar todos os trabalhos ativos de processamento de dados.
Criar um trabalho de processamento de dados usando o comando dataprocessing
do Neptune ML
Um comando dataprocessing
típico do Neptune ML para criar um trabalho tem a seguinte aparência:
curl \ -X POST https://
(your Neptune endpoint)
/ml/dataprocessing \ -H 'Content-Type: application/json' \ -d '{ "inputDataS3Location" : "s3://(Amazon S3 bucket name)
/(path to your input folder)
", "id" : "(a job ID for the new job)
", "processedDataS3Location" : "s3://(S3 bucket name)
/(path to your output folder)
" }'
Um comando para iniciar o reprocessamento incremental tem a seguinte aparência:
curl \ -X POST https://
(your Neptune endpoint)
/ml/dataprocessing \ -H 'Content-Type: application/json' \ -d '{ "inputDataS3Location" : "s3://(Amazon S3 bucket name)
/(path to your input folder)
", "id" : "(a job ID for this job)
", "processedDataS3Location" : "s3://(S3 bucket name)
/(path to your output folder)
" "previousDataProcessingJobId" : "(the job ID of a previously completed job to update)
" }'
Parâmetros para criação de trabalhos dataprocessing
-
id
: (opcional) um identificador exclusivo do novo trabalho.Tipo: string. Padrão: um UUID gerado automaticamente.
-
previousDataProcessingJobId
: (opcional) o ID de um trabalho de processamento de dados concluído executado em uma versão anterior dos dados.Tipo: string. Padrão: nenhum.
Observação: use para processamento incremental de dados, para atualizar o modelo quando os dados do grafo forem alterados (mas não quando os dados forem excluídos).
-
inputDataS3Location
: (obrigatório) o URI do local do Amazon S3 em que você deseja que o SageMaker baixe os dados necessários para executar o trabalho de processamento de dados.Tipo: string.
-
processedDataS3Location
: (obrigatório) o URI do local do Amazon S3 onde você deseja que o SageMaker salve os resultados do trabalho de processamento de dados.Tipo: string.
-
sagemakerIamRoleArn
: (opcional) o ARN de um perfil do IAM para execução do SageMaker.Tipo: string. Observação: deve estar listado no grupo de parâmetros do cluster de banco de dados ou ocorrerá um erro.
-
neptuneIamRoleArn
: (opcional) o nome do recurso da Amazon (ARN) de um perfil do IAM que o SageMaker pode assumir para realizar tarefas em seu nome.Tipo: string. Observação: deve estar listado no grupo de parâmetros do cluster de banco de dados ou ocorrerá um erro.
-
processingInstanceType
: (opcional) o tipo de instância de ML usada durante o processamento de dados. A memória deve ser grande o suficiente para armazenar o conjunto de dados processado.Tipo: string. Padrão: o menor tipo
ml.r5
cuja memória é dez vezes maior que o tamanho dos dados de grafos exportados no disco.Observação: o Neptune ML pode selecionar o tipo de instância automaticamente. Consulte Selecionar uma instância para processamento de dados.
-
processingInstanceVolumeSizeInGB
: (opcional) o tamanho do volume do disco da instância de processamento. Tanto os dados de entrada quanto os dados processados são armazenados em disco, portanto, o tamanho do volume deve ser grande o suficiente para conter os dois conjuntos de dados.Tipo: número inteiro. Padrão:
0
.Observação: se não for especificado ou for 0, o Neptune ML escolherá o tamanho do volume automaticamente com base no tamanho dos dados.
-
processingTimeOutInSeconds
: (opcional) tempo limite em segundos do trabalho de processamento de dados.Tipo: número inteiro. Padrão:
86,400
(um dia). -
modelType
: (opcional) um dos dois tipos de modelo que o Neptune ML aceita no momento: modelos de grafos heterogêneos (heterogeneous
) e grafo de conhecimento (kge
).Tipo: string. Padrão: nenhum.
Observação: se não for especificado, o Neptune ML escolherá o tipo de modelo automaticamente com base nos dados.
-
configFileName
: (opcional) um arquivo de especificação de dados que descreve como carregar os dados de grafos exportados para treinamento. O arquivo é gerado automaticamente pelo kit de ferramentas de exportação do Neptune.Tipo: string. Padrão:
training-data-configuration.json
. -
subnets
: (opcional) os IDs das sub-redes na VPC do Neptune.Tipo: lista de strings. Padrão: nenhum.
-
securityGroupIds
: (opcional) os IDs do grupo de segurança da VPC.Tipo: lista de strings. Padrão: nenhum.
-
volumeEncryptionKMSKey
: (opcional) a chave AWS Key Management Service (AWS KMS) que o SageMaker usa para criptografar dados no volume de armazenamento anexado às instâncias de computação de ML que executam o trabalho de processamento.Tipo: string. Padrão: nenhum.
-
enableInterContainerTrafficEncryption
: (opcional) habilite ou desabilite a criptografia de tráfego entre contêineres em trabalhos de treinamento ou ajuste de hiperparâmetros.Tipo: booliano. Padrão: verdadeiro.
nota
O parâmetro
enableInterContainerTrafficEncryption
só está disponível na versão 1.2.0.2.R3 do mecanismo. -
s3OutputEncryptionKMSKey
: (opcional) a chave AWS Key Management Service (AWS KMS) que o SageMaker usa para criptografar a saída do trabalho de treinamento.Tipo: string. Padrão: nenhum.
Obter o status de um trabalho de processamento de dados usando o comando dataprocessing
do Neptune ML
Um exemplo de comando dataprocessing
do Neptune ML para o status de um trabalho tem a seguinte aparência:
curl -s \ "https://
(your Neptune endpoint)
/ml/dataprocessing/(the job ID)
" \ | python -m json.tool
Parâmetros para o status do trabalho dataprocessing
-
id
: (obrigatório) o identificador exclusivo do trabalho de processamento de dados.Tipo: string.
-
neptuneIamRoleArn
: (opcional) o ARN de um perfil do IAM que fornece ao Neptune acesso aos recursos do SageMaker e do Amazon S3.Tipo: string. Observação: deve estar listado no grupo de parâmetros do cluster de banco de dados ou ocorrerá um erro.
Interromper um trabalho de processamento de dados usando o comando dataprocessing
do Neptune ML
Um exemplo de comando dataprocessing
do Neptune ML para interromper um trabalho tem a seguinte aparência:
curl -s \ -X DELETE "https://
(your Neptune endpoint)
/ml/dataprocessing/(the job ID)
"
Ou esta:
curl -s \ -X DELETE "https://
(your Neptune endpoint)
/ml/dataprocessing/(the job ID)
?clean=true"
Parâmetros para um trabalho de interrupção dataprocessing
-
id
: (obrigatório) o identificador exclusivo do trabalho de processamento de dados.Tipo: string.
-
neptuneIamRoleArn
: (opcional) o ARN de um perfil do IAM que fornece ao Neptune acesso aos recursos do SageMaker e do Amazon S3.Tipo: string. Observação: deve estar listado no grupo de parâmetros do cluster de banco de dados ou ocorrerá um erro.
-
clean
: (opcional) esse sinalizador especifica que todos os artefatos do Amazon S3 devem ser excluídos quando o trabalho é interrompido.Tipo: booliano. Padrão:
FALSE
.
Listar trabalhos de processamento de dados ativos usando o comando dataprocessing
do Neptune ML
Um exemplo de comando dataprocessing
do Neptune ML para listar trabalhos ativos tem a seguinte aparência:
curl -s "https://
(your Neptune endpoint)
/ml/dataprocessing"
Ou esta:
curl -s "https://
(your Neptune endpoint)
/ml/dataprocessing?maxItems=3"
Parâmetros para trabalhos de lista dataprocessing
-
maxItems
: (opcional) o número máximo de itens a serem gerados.Tipo: número inteiro. Padrão:
10
. Valor máximo permitido:1024
. -
neptuneIamRoleArn
: (opcional) o ARN de um perfil do IAM que fornece ao Neptune acesso aos recursos do SageMaker e do Amazon S3.Tipo: string. Observação: deve estar listado no grupo de parâmetros do cluster de banco de dados ou ocorrerá um erro.