Executar um trabalho de processamento com scikit-learn - SageMaker IA da Amazon

As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.

Executar um trabalho de processamento com scikit-learn

Você pode usar o Amazon SageMaker Processing para processar dados e avaliar modelos com scripts scikit-learn em uma imagem do Docker fornecida pela Amazon AI. SageMaker Veja a seguir um exemplo de como executar um trabalho de SageMaker processamento da Amazon usando o scikit-learn.

Para ver um exemplo de caderno que mostra como executar scripts do scikit-learn usando uma imagem do Docker fornecida e mantida pela SageMaker IA para pré-processar dados e avaliar modelos, consulte processamento do scikit-learn. Para usar esse notebook, você precisa instalar o SageMaker AI Python SDK for Processing.

Esse notebook executa um trabalho de processamento usando a SKLearnProcessor classe do SDK do SageMaker Python para executar um script scikit-learn fornecido por você. O script pré-processa dados, treina um modelo usando um trabalho de SageMaker treinamento e, em seguida, executa um trabalho de processamento para avaliar o modelo treinado. O trabalho de processamento estima o desempenho esperado do modelo na produção.

Para saber mais sobre como usar o SDK do SageMaker Python com contêineres de processamento, consulte o SDK do SageMaker Python. Para obter uma lista completa das imagens pré-criadas do Docker disponíveis para tarefas de processamento, consulte Caminhos de registro e código de exemplo do Docker.

O exemplo de código a seguir mostra como o notebook usa SKLearnProcessor para executar seu próprio script scikit-learn usando uma imagem do Docker fornecida e mantida pela SageMaker IA, em vez da sua própria imagem do Docker.

from sagemaker.sklearn.processing import SKLearnProcessor from sagemaker.processing import ProcessingInput, ProcessingOutput sklearn_processor = SKLearnProcessor(framework_version='0.20.0', role=role, instance_type='ml.m5.xlarge', instance_count=1) sklearn_processor.run(code='preprocessing.py', inputs=[ProcessingInput( source='s3://path/to/my/input-data.csv', destination='/opt/ml/processing/input')], outputs=[ProcessingOutput(source='/opt/ml/processing/output/train'), ProcessingOutput(source='/opt/ml/processing/output/validation'), ProcessingOutput(source='/opt/ml/processing/output/test')] )

Para processar dados paralelamente usando o Scikit-Learn no Amazon SageMaker Processing, você pode fragmentar objetos de entrada por chave S3 configurando s3_data_distribution_type='ShardedByS3Key' dentro de a ProcessingInput para que cada instância receba aproximadamente o mesmo número de objetos de entrada.