Selecione suas preferências de cookies

Usamos cookies essenciais e ferramentas semelhantes que são necessárias para fornecer nosso site e serviços. Usamos cookies de desempenho para coletar estatísticas anônimas, para que possamos entender como os clientes usam nosso site e fazer as devidas melhorias. Cookies essenciais não podem ser desativados, mas você pode clicar em “Personalizar” ou “Recusar” para recusar cookies de desempenho.

Se você concordar, a AWS e terceiros aprovados também usarão cookies para fornecer recursos úteis do site, lembrar suas preferências e exibir conteúdo relevante, incluindo publicidade relevante. Para aceitar ou recusar todos os cookies não essenciais, clique em “Aceitar” ou “Recusar”. Para fazer escolhas mais detalhadas, clique em “Personalizar”.

Referências do Amazon SageMaker Debugger

Modo de foco
Referências do Amazon SageMaker Debugger - SageMaker IA da Amazon

As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.

As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.

Encontre mais informações e referências sobre o uso do Amazon SageMaker Debugger nos tópicos a seguir.

SageMaker Depurador Amazon APIs

O Amazon SageMaker Debugger tem operações de API em vários locais que são usadas para implementar seu monitoramento e análise do treinamento de modelos.

O Amazon SageMaker Debugger também fornece o SDK sagemaker-debugger Python de código aberto que é usado para configurar regras incorporadas, definir regras personalizadas e registrar ganchos para coletar dados de tensores de saída de trabalhos de treinamento.

O Amazon SageMaker AI Python SDK é um SDK de alto nível focado na experimentação de aprendizado de máquina. O SDK pode ser usado para implantar regras integradas ou personalizadas definidas com a biblioteca SMDebug Python para monitorar e analisar esses tensores SageMaker usando estimadores de IA.

O Debugger adicionou operações e tipos à SageMaker API da Amazon que permitem que a plataforma use o Debugger ao treinar um modelo e gerenciar a configuração de entradas e saídas.

As operações da API de configuração de regras usam a funcionalidade SageMaker Processing ao analisar o treinamento de um modelo. Para obter mais informações sobre SageMaker processamento, consulteCargas de trabalho de transformação de dados com processamento SageMaker .

Imagens do Docker para regras do Depurador

A Amazon SageMaker AI fornece dois conjuntos de imagens do Docker para regras: um conjunto para avaliar as regras fornecidas pela SageMaker IA (regras incorporadas) e um conjunto para avaliar as regras personalizadas fornecidas nos arquivos de origem do Python.

Se você usa o SDK do Amazon SageMaker Python, pode simplesmente usar as operações da API do Debugger de alto nível de SageMaker IA com as operações da API do SageMaker AI Estimator, sem precisar recuperar manualmente as imagens do Debugger Docker e configurar a API. ConfigureTrainingJob

Se você não estiver usando o SDK do SageMaker Python, precisará recuperar uma imagem base de contêiner pré-criada relevante para as regras do Debugger. O Amazon SageMaker Debugger fornece imagens pré-criadas do Docker para regras incorporadas e personalizadas, e as imagens são armazenadas no Amazon Elastic Container Registry (Amazon ECR). Para extrair uma imagem de um repositório Amazon ECR (ou enviar uma imagem para um), use a URL de registro do nome completo da imagem usando a CreateTrainingJob API. SageMaker O AI usa os seguintes padrões de URL para o endereço de registro da imagem do contêiner da regra do Debugger.

<account_id>.dkr.ecr.<Region>.amazonaws.com/<ECR repository name>:<tag>

Para obter o ID da conta em cada AWS região, o nome do repositório Amazon ECR e o valor da tag, consulte os tópicos a seguir.

Imagem do Amazon SageMaker Debugger URIs para avaliadores de regras integrados

Use os seguintes valores para os componentes do registro das imagens que fornecem regras integradas URLs para o Amazon SageMaker Debugger. Para a conta IDs, consulte a tabela a seguir.

Nome do repositório ECR: sagemaker-debugger-rules

Tag: mais recente

Exemplo de URL de registro completo:

904829902805.dkr.ecr.ap-south-1.amazonaws.com/sagemaker-debugger-rules:latest

Conta IDs para imagens de contêiner de regras integradas por AWS região

Região account_id
af-south-1

314341159256

ap-east-1

199566480951

ap-northeast-1

430734990657

ap-northeast-2

578805364391

ap-south-1

904829902805

ap-southeast-1

972752614525

ap-southeast-2

184798709955

ca-central-1

519511493484

cn-north-1

618459771430

cn-northwest-1

658757709296

eu-central-1

482524230118

eu-north-1

314864569078

eu-south-1

563282790590

eu-west-1

929884845733

eu-west-2

250201462417

eu-west-3

447278800020

me-south-1

986000313247

sa-east-1

818342061345

us-east-1

503895931360

us-east-2

915447279597

us-west-1

685455198987

us-west-2

895741380848

us-gov-west-1

515509971035

Imagem do Amazon SageMaker Debugger URIs para avaliadores de regras personalizadas

Use os valores a seguir para os componentes da URL de registro das imagens que fornecem avaliadores de regras personalizados para o Amazon SageMaker Debugger. Para a conta IDs, consulte a tabela a seguir.

Nome do repositório ECR: sagemaker-debugger-rule-evaluator

Tag: mais recente

Exemplo de URL de registro completo:

552407032007.dkr.ecr.ap-south-1.amazonaws.com/sagemaker-debugger-rule-evaluator:latest

Conta IDs para imagens de contêiner de regras personalizadas por AWS região

Região account_id
af-south-1

515950693465

ap-east-1

645844755771

ap-northeast-1

670969264625

ap-northeast-2

326368420253

ap-south-1

552407032007

ap-southeast-1

631532610101

ap-southeast-2

445670767460

ca-central-1

105842248657

cn-north-1

617202126805

cn-northwest-1

658559488188

eu-central-1

691764027602

eu-north-1

091235270104

eu-south-1

335033873580

eu-west-1

606966180310

eu-west-2

074613877050

eu-west-3

224335253976

me-south-1

050406412588

sa-east-1

466516958431

us-east-1

864354269164

us-east-2

840043622174

us-west-1

952348334681

us-west-2

759209512951

us-gov-west-1

515361955729

Exceções do Amazon SageMaker Debugger

O Amazon SageMaker Debugger foi projetado para estar ciente de que os tensores necessários para executar uma regra podem não estar disponíveis em todas as etapas. Como resultado, ele abre algumas exceções que permitem que você controle o que acontece quando um tensor está ausente. Essas exceções estão disponíveis no módulo smdebug.exceptions. É possível importá-los da seguinte maneira:

from smdebug.exceptions import *

As seguintes exceções estão disponíveis:

  • TensorUnavailableForStep: O tensor solicitado não está disponível para a etapa. Isso pode significar que essa etapa pode não ser salva pelo hook, ou que essa etapa pode ter salvo alguns tensores, mas o tensor solicitado não faz parte deles. Observe que quando você vê essa exceção, isso significa que esse tensor pode nunca ficar disponível para essa etapa no futuro. Se o tensor tiver reduções salvas para a etapa, ele notificará que elas podem ser consultadas.

  • TensorUnavailable: Este tensor não está sendo salvo ou não foi salvo pela API de smdebug. Isso significa que esse tensor nunca é visto para nenhuma etapa na smdebug.

  • StepUnavailable: A etapa não foi salva e o Depurador não tem os dados da etapa.

  • StepNotYetAvailable: A etapa ainda não foi vista por smdebug. Pode estar disponível no futuro se o treinamento ainda estiver em andamento. O Depurador carrega automaticamente novos dados assim que se tornam disponíveis.

  • NoMoreData: Gerado quando o treinamento termina. Ao ver isso, você saberá que não há mais etapas e nem tensores a serem salvos.

  • IndexReaderException: O leitor de índice não é válido.

  • InvalidWorker: Um operador que não era válido foi invocado.

  • RuleEvaluationConditionMet: A avaliação da regra na etapa resultou no cumprimento da condição.

  • InsufficientInformationForRuleInvocation: Informações insuficientes foram fornecidas para invocar a regra.

Treinamento distribuído suportado pelo Amazon SageMaker Debugger

A listagem a seguir mostra o escopo de validade e as considerações sobre o uso do Depurador em trabalhos de treinamento com frameworks de aprendizado profundo e várias opções de treinamento distribuído.

  • Horovod

    Escopo de validade do uso do Depurador para trabalhos de treinamento com Horovod

    Frameworks de aprendizado profundo Apache MXNet TensorFlow 1.x TensorFlow 2. x TensorFlow 2.x com Keras PyTorch
    Gargalos do sistema de monitoramento Sim Sim Sim Sim Sim
    Operações de framework perfilador Não Não Não Sim Sim
    Tensores de saída do modelo de depuração Sim Sim Sim Sim Sim
  • SageMaker Dados distribuídos paralelamente com IA

    Escopo de validade do uso do Debugger para trabalhos de treinamento com SageMaker IA Distributed Data Parallel

    Frameworks de aprendizado profundo TensorFlow 2. x TensorFlow 2.x com Keras PyTorch
    Gargalos do sistema de monitoramento Sim Sim Sim
    Operações de framework perfilador Não* Não* Sim
    Tensores de saída do modelo de depuração Sim Sim Sim

    * O depurador não oferece suporte à criação de perfis de estrutura para 2.x. TensorFlow

    ** O SageMaker AI Distributed Data Parallel não suporta TensorFlow 2.x com a implementação do Keras.

  • SageMaker AI Distributed Model Parallel — O Debugger não oferece suporte ao treinamento paralelo de modelos distribuídos de SageMaker IA.

  • Treinamento distribuído com pontos de verificação de SageMaker IA — O Debugger não está disponível para trabalhos de treinamento quando a opção de treinamento distribuído e os pontos de verificação de SageMaker IA estão habilitados. Você verá um erro parecido com o seguinte:

    SMDebug Does Not Currently Support Distributed Training Jobs With Checkpointing Enabled

    Para usar o Debugger para trabalhos de treinamento com opções de treinamento distribuídas, você precisa desativar o ponto de verificação de SageMaker IA e adicionar funções de ponto de verificação manual ao seu script de treinamento. Para obter mais informações sobre como usar o Depurador com opções de treinamento e pontos de verificação distribuídos, consulte Usando dados distribuídos de SageMaker IA paralelamente com o Amazon SageMaker Debugger e os pontos de verificação e Salvando pontos de verificação.

  • Servidor de parâmetros: O depurador não oferece apoio ao treinamento distribuído baseado em servidor de parâmetros.

  • A criação de perfis de operações de estrutura de treinamento distribuída, como a AllReduced operação paralela de dados distribuídos de SageMaker IA e as operações Horovod, não está disponível.

PrivacidadeTermos do sitePreferências de cookies
© 2025, Amazon Web Services, Inc. ou suas afiliadas. Todos os direitos reservados.