Explore o painel do Amazon SageMaker Debugger Insights - Amazon SageMaker

As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.

Explore o painel do Amazon SageMaker Debugger Insights

Quando você inicia um trabalho de SageMaker treinamento, o SageMaker Debugger começa a monitorar a utilização de recursos das instâncias da Amazon EC2 por padrão. Você pode acompanhar as taxas de utilização do sistema, a visão geral das estatísticas e a análise de regras integradas por meio do painel do Insights. Este guia mostra o conteúdo do painel do SageMaker Debugger Insights nas seguintes guias: Métricas e regras do sistema.

nota

O painel do SageMaker Debugger Insights executa um aplicativo Studio Classic em uma ml.m5.4xlarge instância para processar e renderizar as visualizações. Cada guia SageMaker do Debugger Insights executa uma sessão do kernel do Studio Classic. Várias sessões do kernel para várias guias do SageMaker Debugger Insights são executadas em uma única instância. Quando você fecha uma guia do SageMaker Debugger Insights, a sessão correspondente do kernel também é fechada. O aplicativo Studio Classic permanece ativo e acumula cobranças pelo uso da ml.m5.4xlarge instância. Para obter informações sobre preços, consulte a página de SageMaker preços da Amazon.

Importante

Quando você terminar de usar o painel do SageMaker Debugger Insights, encerre a ml.m5.4xlarge instância para evitar o acúmulo de cobranças. Para obter instruções sobre como desligar a instância, consulte Encerre a instância do Amazon SageMaker Debugger Insights.

Importante

Nos relatórios, gráficos e recomendações são fornecidos para fins informativos e não são definitivos. Os clientes são responsáveis por fazer sua própria avaliação independente das informações contidas neste documento.

Métricas do sistema

Na guia Métricas do sistema, você pode usar a tabela de resumo e os gráficos de séries temporais para entender a utilização de recursos.

Resumo da utilização de recursos

Essa tabela de resumo mostra as estatísticas das métricas de utilização de recursos computacionais de todos os nós (indicados como algo- n). As métricas de utilização de recursos incluem a CPU utilização total, a utilização total, a GPU utilização total da CPU memória, a utilização total da GPU memória, o tempo total de espera de E/S e a rede total em bytes. A tabela mostra os valores mínimo e máximo e os percentis p99, p90 e p50.

Uma tabela resumida da utilização de recursos

Gráficos de séries temporais de utilização de recursos

Use os gráficos de séries temporais para ver mais detalhes sobre a utilização de recursos e identificar em que intervalo de tempo cada instância mostra qualquer taxa de utilização indesejada, como baixa GPU utilização e CPU gargalos que podem causar o desperdício da instância cara.

A interface do usuário do controlador gráfico de séries temporais

A captura de tela a seguir mostra o controlador de interface do usuário para ajustar os gráficos de séries temporais.

O controlador de interface do usuário no painel do SageMaker Debugger Insights.
  • algo-1: Use esse menu suspenso para escolher o nó que você deseja examinar.

  • Ampliar: Use esse botão para ampliar os gráficos de séries temporais e visualizar intervalos de tempo mais curtos.

  • Reduzir: use esse botão para reduzir o zoom dos gráficos de séries temporais e visualizar intervalos de tempo mais amplos.

  • Deslocar para a esquerda: mova os gráficos da série temporal para um intervalo de tempo anterior.

  • Deslocar para a direita: mova os gráficos da série temporal para um intervalo de tempo posterior.

  • Corrigir prazo: use essa caixa de seleção para corrigir ou trazer de volta os gráficos de séries temporais para mostrar a visualização completa do primeiro ponto de dados até o último ponto de dados.

CPUutilização e tempo de espera de E/S

Os dois primeiros gráficos mostram a CPU utilização e o tempo de espera de E/S ao longo do tempo. Por padrão, os gráficos mostram a média da taxa de CPU utilização e do tempo de espera de E/S gasto nos núcleos. CPU Você pode selecionar um ou mais CPU núcleos selecionando os rótulos para representá-los graficamente em um único gráfico e comparar a utilização entre os núcleos. Você pode arrastar e ampliar e reduzir para ver mais de perto intervalos de tempo específicos.

debugger-studio-insight-mockup

GPUutilização e utilização de GPU memória

Os gráficos a seguir mostram a utilização e GPU a utilização da GPU memória ao longo do tempo. Por padrão, os gráficos mostram a taxa média de utilização ao longo do tempo. Você pode selecionar os rótulos GPU principais para ver a taxa de utilização de cada núcleo. Tomar a média da taxa de utilização sobre o número total de GPU núcleos mostra a utilização média de todo o recurso do sistema de hardware. Ao observar a taxa média de utilização, você pode verificar o uso geral dos recursos do sistema de uma EC2 instância da Amazon. A figura a seguir mostra um exemplo de trabalho de treinamento em uma ml.p3.16xlarge instância com 8 GPU núcleos. Você pode monitorar se o trabalho de treinamento está bem distribuído, utilizando totalmente tudoGPUs.

debugger-studio-insight-mockup

Utilização geral do sistema ao longo do tempo

O mapa de calor a seguir mostra um exemplo de toda a utilização de uma ml.p3.16xlarge instância pelo sistema ao longo do tempo, projetada no gráfico bidimensional. Cada CPU GPU núcleo é listado no eixo vertical, e a utilização é registrada ao longo do tempo com um esquema de cores, onde as cores brilhantes representam baixa utilização e as cores mais escuras representam alta utilização. Consulte a barra de cores rotulada no lado direito do gráfico para descobrir qual nível de cor corresponde a qual taxa de utilização.

debugger-studio-insight-mockup

Regras

Use a guia Regras para encontrar um resumo da análise das regras de criação de perfil em seu trabalho de treinamento. Se a regra de criação de perfil for ativada com o trabalho de treinamento, o texto aparecerá destacado com o texto branco sólido. As regras inativas são esmaecidas em texto cinza. Para ativar essas regras, siga as instruções emConfigure regras de criação de perfil integradas gerenciadas pelo Amazon SageMaker Debugger.

A guia Regras no painel do SageMaker Debugger Insights