Use trabalhos de processamento para executar cargas de trabalho de transformação de dados - Amazon SageMaker

As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.

Use trabalhos de processamento para executar cargas de trabalho de transformação de dados

SageMaker O processamento se refere às capacidades SageMaker de executar tarefas de pré e pós-processamento de dados, engenharia de recursos e avaliação de modelos na infraestrutura totalmente gerenciada SageMaker da. Essas tarefas são executadas como trabalhos de processamento. Usando a API SageMaker de processamento, os cientistas de dados podem executar scripts e notebooks para processar, transformar e analisar conjuntos de dados a fim de prepará-los para o aprendizado de máquina. Quando combinado com outras tarefas críticas de aprendizado de máquina fornecidas por SageMaker, como treinamento e hospedagem, o Processing oferece os benefícios de um ambiente de aprendizado de máquina totalmente gerenciado, incluindo todo o suporte de segurança e conformidade incorporado SageMaker. Você tem a flexibilidade de usar os contêineres de processamento de dados integrados ou de trazer seus próprios contêineres para uma lógica de processamento personalizada e, em seguida, enviar trabalhos para execução na infraestrutura SageMaker gerenciada.

nota

Você pode criar um trabalho de processamento programaticamente chamando a ação da CreateProcessingJob API em qualquer linguagem suportada por SageMaker ou usando o. AWS CLI Para obter informações sobre como essa ação da API se traduz em uma função no idioma de sua escolha, consulte a seção Consulte também CreateProcessingJob e escolha um SDK. Como exemplo, para usuários de Python, consulte a seção Amazon SageMaker Processing do Python SageMaker SDK. Como alternativa, consulte a sintaxe completa da solicitação de create_processing_job no. AWS SDK for Python (Boto3)

O diagrama a seguir mostra como a SageMaker Amazon executa um trabalho de processamento. A Amazon SageMaker pega seu script, copia seus dados do Amazon Simple Storage Service (Amazon S3) e, em seguida, extrai um contêiner de processamento. A infraestrutura subjacente para um trabalho de processamento é totalmente gerenciada pela Amazon SageMaker. Depois de enviar um trabalho de processamento, SageMaker inicia as instâncias de computação, processa e analisa os dados de entrada e libera os recursos após a conclusão. A saída do trabalho de processamento é armazenada no bucket do Amazon S3 que você especificar.

nota

Seus dados de entrada devem ser armazenados em um bucket do Amazon S3. Se preferir, você também pode usar Amazon Athena ou Amazon Redshift.

Execução de um trabalho de processamento.
dica

Para conhecer as melhores práticas para computação distribuída de trabalhos de treinamento e processamento de machine learning (ML) em geral, consulte Computação distribuída com SageMaker as melhores práticas.

Use cadernos SageMaker de amostra de processamento da Amazon

Fornecemos dois exemplos de blocos de anotações Jupyter que mostram como realizar o pré-processamento de dados, a avaliação de modelos ou ambos.

Para ver um exemplo de caderno que mostra como executar scripts do scikit-learn para realizar o pré-processamento de dados e o treinamento e a avaliação de modelos com o SDK do SageMaker Python para processamento, consulte scikit-learn Processing. Esse caderno também mostra como usar um contêiner personalizado para executar cargas de trabalho de processamento com bibliotecas Python e outras dependências específicas.

Para ver um exemplo de caderno que mostra como usar o Amazon SageMaker Processing para realizar o pré-processamento distribuído de dados com o Spark, consulte Processamento distribuído (Spark). Esse caderno também mostra como treinar um modelo de regressão usando o XGBoost no conjunto de dados pré-processado.

Para obter instruções sobre como criar e acessar instâncias do notebook Jupyter que você pode usar para executar essas amostras SageMaker, consulte. Instâncias do Amazon SageMaker Notebook Depois de criar uma instância do notebook e abri-la, escolha a guia SageMaker Exemplos para ver uma lista de todas as SageMaker amostras. Para abrir um caderno, escolha sua guia Use (Uso) e depois escolha Create copy (Criar cópia).

Monitore trabalhos SageMaker de processamento da Amazon com CloudWatch registros e métricas

O Amazon SageMaker Processing fornece CloudWatch registros e métricas da Amazon para monitorar trabalhos de processamento. CloudWatch fornece CPU, GPU, memória, memória de GPU, métricas de disco e registro de eventos. Para ter mais informações, consulte Monitore a Amazon SageMaker com a Amazon CloudWatch e Registre SageMaker eventos da Amazon com a Amazon CloudWatch.