As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.
Por padrão, o perfil básico do SageMaker Debugger está ativado por padrão e monitora as métricas de utilização de recursos, como utilização da CPU, utilização da GPU, utilização da memória da GPU, rede e tempo de espera de E/S, de todos os trabalhos de treinamento enviados usando o SDK do Amazon Python. SageMaker SageMaker
Se quiser acessar o painel de métricas de utilização de recursos do seu trabalho de treinamento no SageMaker Studio, você pode acessar o. Interface do SageMaker usuário do Amazon Debugger no Amazon Studio Classic Experiments SageMaker
Se você quiser ativar as regras que detectam problemas de utilização de recursos do sistema automaticamente, você pode adicionar o parâmetro rules
no objeto estimador para ativar as regras.
Importante
Para usar os recursos mais recentes do SageMaker Debugger, você precisa atualizar o SDK do SageMaker Python e a biblioteca cliente. SMDebug
No kernel do IPython, no Jupyter Notebook JupyterLab ou no ambiente, execute o código a seguir para instalar as versões mais recentes das bibliotecas e reiniciar o kernel.
import sys
import IPython
!{sys.executable} -m pip install -U sagemaker smdebug
IPython.Application.instance().kernel.do_shutdown(True)
Modelo de código para configurar um objeto estimador de SageMaker IA com os módulos Debugger SageMaker Python no SDK do AI Python SageMaker
Para ajustar a configuração básica de criação de perfil (profiler_config
) ou adicionar as regras do criador de perfil (rules
), escolha uma das guias para obter o modelo para configurar um SageMaker estimador de IA. Nas páginas seguintes, você pode encontrar mais informações sobre como configurar os dois parâmetros:
nota
Os exemplos de código a seguir não são executáveis diretamente. Vá para as próximas seções para saber como configurar cada parâmetro.
# An example of constructing a SageMaker AI PyTorch estimator
import boto3
import sagemaker
from sagemaker.pytorch import PyTorch
from sagemaker.debugger import ProfilerConfig, ProfilerRule, rule_configs
session=boto3.session.Session()
region=session.region_name
profiler_config
=ProfilerConfig(...)
rules
=[
ProfilerRule.sagemaker(rule_configs.BuiltInRule())
]
estimator=PyTorch(
entry_point="directory/to/your_training_script.py
",
role=sagemaker.get_execution_role(),
base_job_name="debugger-profiling-demo
",
instance_count=1
,
instance_type="ml.p3.2xlarge
",
framework_version="1.12.0
",
py_version="py37
",
# SageMaker Debugger parameters
profiler_config=profiler_config
,
rules=rules
)
estimator.fit(wait=False)
A seguir, são apresentadas breves descrições dos parâmetros.
-
profiler_config
: Configure o Debugger para coletar métricas do sistema e métricas da framework de seu trabalho de treinamento e salvar em seu URI seguro do bucket S3 ou na máquina local. Você pode definir com que frequência ou de forma flexível as métricas do sistema. Para saber como configurar a o parâmetroprofiler_config
, consulte Defina as configurações para a criação de perfil básico da utilização dos recursos do sistema e Configuração do estimador para criação de perfil de framework. -
rules
— Configure esse parâmetro para ativar as regras integradas do SageMaker Debugger que você deseja executar em paralelo. Certifique-se de que seu trabalho de treinamento tenha acesso a esse bucket do S3. As regras são executadas em contêineres de processamento e analisam automaticamente seu trabalho de treinamento para encontrar problemas de desempenho computacional e operacional. A regra ProfilerReport é a regra mais integrada que executa todas as regras de criação de perfil integradas e salva os resultados da criação de perfil como um relatório em seu bucket seguro do S3. Para saber como configurar a o parâmetrorules
, consulte Use regras de criação de perfil integradas gerenciadas pelo Amazon SageMaker Debugger.
nota
O Debugger salva com segurança os dados de saída em subpastas do seu bucket S3 padrão. Por exemplo, o formato do URI padrão do bucket do S3 é s3://sagemaker-<region>-<12digit_account_id>/<base-job-name>/<debugger-subfolders>/
. Há três subpastas criadas pelo Debugger: debug-output
, profiler-output
e rule-output
. Você também pode recuperar o bucket padrão do S3 URIs usando os métodos da classe SageMaker AI Estimator.
Consulte os tópicos a seguir para descobrir como configurar detalhadamente os parâmetros específicos do Debugger.