As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.
Painéis de SageMaker HyperPod observabilidade da Amazon
Este tópico descreve como visualizar painéis de métricas para seus clusters Amazon SageMaker HyperPod (SageMaker HyperPod) e como adicionar novos usuários a um painel. O tópico também descreve os diferentes tipos de painéis.
Acesso aos painéis
Para visualizar as métricas do seu SageMaker HyperPod cluster no Amazon Managed Grafana, execute as seguintes etapas:
Abra o console Amazon SageMaker AI em https://console.aws.amazon.com/sagemaker/
. -
Acesse a página de detalhes do seu cluster.
-
Na guia Painel, localize a seção HyperPod Observabilidade e escolha Abrir painel no Grafana.
Adicionar novos usuários a um espaço de trabalho Amazon Managed Grafana
Para obter informações sobre como adicionar usuários a um espaço de trabalho do Amazon Managed Grafana, consulte Use o AWS IAM Identity Center com seu espaço de trabalho Amazon Managed Grafana no Guia do usuário do Amazon Managed Grafana.
Painéis de observabilidade
O complemento SageMaker HyperPod de observabilidade fornece cinco painéis interconectados em seu espaço de trabalho padrão do Amazon Managed Grafana. Cada painel fornece informações detalhadas sobre diferentes recursos e tarefas nos clusters para vários usuários, como cientistas de dados, engenheiros de aprendizado de máquina e administradores.
Painel de tarefas
O painel de tarefas fornece monitoramento e visualização abrangentes das métricas de utilização de recursos para SageMaker HyperPod tarefas. O painel principal exibe uma tabela detalhada agrupando o uso de recursos por tarefas principais, mostrando a utilização de CPU, GPU e memória nos pods. Gráficos interativos de séries temporais monitoram o uso da CPU, o consumo de memória do sistema, as porcentagens de utilização da GPU e o uso da memória da GPU para pods selecionados, permitindo que você monitore as tendências de desempenho ao longo do tempo. O painel apresenta recursos avançados de filtragem por meio de variáveis como nome do cluster, namespace, tipo de tarefa e pods específicos, facilitando o detalhamento de cargas de trabalho específicas. Essa solução de monitoramento é essencial para otimizar a alocação de recursos e manter o desempenho das cargas de trabalho de aprendizado de máquina ativadas. SageMaker HyperPod
Painel de treinamento
O painel de treinamento fornece monitoramento abrangente das métricas de integridade, confiabilidade e gerenciamento de falhas das tarefas de treinamento. O painel apresenta os principais indicadores de desempenho, incluindo contagens de criação de tarefas, taxas de sucesso e porcentagens de tempo de atividade, além de rastreamento detalhado de eventos de reinicialização automática e manual. Ele oferece visualizações detalhadas dos padrões de falha por meio de gráficos circulares e mapas de calor que dividem os incidentes por tipo e latência de remediação, permitindo que você identifique problemas recorrentes e otimize a confiabilidade das tarefas. A interface inclui monitoramento em tempo real de métricas críticas, como tempos de recuperação do sistema e latências de detecção de falhas, tornando-a uma ferramenta essencial para manter a alta disponibilidade das cargas de trabalho de treinamento. Além disso, a janela final de 24 horas do painel fornece contexto histórico para analisar tendências e padrões no desempenho das tarefas de treinamento, ajudando as equipes a lidar proativamente com possíveis problemas antes que eles afetem as cargas de trabalho de produção.
Painel de inferência
O painel de inferência fornece monitoramento abrangente do desempenho da implantação do modelo e das métricas de integridade em várias dimensões. Ele apresenta uma visão geral detalhada das implantações ativas, monitoramento em tempo real das taxas de solicitação, porcentagens de sucesso e métricas de latência, permitindo que você acompanhe o desempenho do serviço de modelos e identifique possíveis gargalos. O painel inclui painéis especializados para métricas gerais de inferência e métricas específicas de tokens para modelos de linguagem, como o tempo até o primeiro token (TTFT) e a taxa de transferência do token, tornando-o particularmente valioso para monitorar grandes implantações de modelos de linguagem. Além disso, ele fornece insights de infraestrutura por meio do rastreamento de alocação de pods e nós, ao mesmo tempo em que oferece recursos detalhados de análise de erros para ajudar a manter a alta disponibilidade e o desempenho das cargas de trabalho de inferência.
Painel de controle do cluster
O painel do cluster fornece uma visão abrangente da integridade e do desempenho do cluster, oferecendo visibilidade em tempo real dos recursos de computação, memória, rede e armazenamento em todo o seu ambiente Amazon SageMaker HyperPod (SageMaker HyperPod). Em um piscar de olhos, você pode visualizar métricas críticas, incluindo o total de instâncias, a utilização da GPU, o uso da memória e o desempenho da rede, por meio de uma interface intuitiva que atualiza automaticamente os dados a cada poucos segundos. O painel é organizado em seções lógicas, começando com uma visão geral de alto nível do cluster que exibe métricas importantes, como porcentagem de instâncias íntegras e contagens totais de recursos, seguidas por seções detalhadas sobre desempenho da GPU, utilização de memória, estatísticas de rede e métricas de armazenamento. Cada seção apresenta gráficos e painéis interativos que permitem detalhar métricas específicas, com intervalos de tempo personalizáveis e opções de filtragem por nome de cluster, instância ou ID da GPU.
Painel do sistema de arquivos
O painel do sistema de arquivos fornece visibilidade abrangente das métricas de desempenho e integridade do sistema de arquivos (Amazon FSx for Lustre). O painel exibe métricas críticas de armazenamento, incluindo capacidade livre, economia de desduplicação, CPU/memory utilização, IOPS de disco, taxa de transferência e conexões de clientes em várias visualizações. Isso possibilita que você monitore indicadores de desempenho em nível de sistema, como uso de CPU e memória, bem como métricas específicas de armazenamento, como read/write operações e padrões de utilização de disco. A interface inclui recursos de monitoramento de alertas e gráficos detalhados de séries temporais para rastrear tendências de desempenho ao longo do tempo, tornando-a valiosa para manutenção proativa e planejamento de capacidade. Além disso, por meio de sua cobertura abrangente de métricas, o painel ajuda a identificar possíveis gargalos, otimizar o desempenho do armazenamento e garantir operações confiáveis do sistema de arquivos para cargas de trabalho. SageMaker HyperPod