As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.
Relatórios de uso para atribuição de custos em SageMaker HyperPod
Os relatórios de uso em clusters SageMaker HyperPod orquestrados pelo EKS fornecem visibilidade granular do consumo de recursos computacionais. O recurso permite que as organizações implementem uma atribuição transparente de custos, alocando custos de cluster para equipes, projetos ou departamentos com base em seu uso real. Ao monitorar métricas como GPU/CPU horas e utilização do Neuron Core - capturadas em agregados de nível de equipe e detalhamentos específicos de tarefas - os relatórios de uso complementam a funcionalidade de governança de tarefas, garantindo uma distribuição justa de custos em clusters compartilhados HyperPod de vários inquilinos por meio de:
-
Eliminando suposições na alocação de custos
-
Vinculando diretamente as despesas ao consumo mensurável de recursos
-
Impondo a responsabilidade baseada no uso em ambientes de infraestrutura compartilhada
Pré-requisitos
Para usar esse recurso:
-
Você precisa:
-
Um SageMaker HyperPod ambiente ativo com um cluster orquestrado pelo EKS em execução.
-
(Altamente recomendado) Governança de tarefas configurada com cotas de computação e regras de prioridade. Para obter instruções de configuração, consulte Configuração da governança de tarefas.
-
-
Familiarize-se com esses conceitos básicos:
-
Cota de computação alocada: recursos reservados para uma equipe com base em cotas predefinidas em suas políticas de governança de tarefas. Essa é a capacidade garantida para suas cargas de trabalho.
-
Computação emprestada: recursos ociosos do pool de clusters compartilhados que as equipes podem usar temporariamente além da cota alocada. A computação emprestada é atribuída dinamicamente com base nas regras de prioridade nas políticas de governança de tarefas e na disponibilidade de recursos não utilizados.
-
Uso da computação: a medição dos recursos (GPU, CPU, horas do Neuron Core) consumidos por uma equipe, rastreada como:
-
Utilização alocada: uso dentro da cota da equipe.
-
Utilização emprestada: uso além da cota, extraído do pool compartilhado.
-
-
Atribuição de custos: o processo de alocar os custos do cluster às equipes com base no uso real da computação, incluindo os recursos consumidos dentro da cota predefinida e os recursos usados temporariamente do pool compartilhado do cluster além da cota.
-
Tipos de relatórios
HyperPodOs relatórios de uso da fornecem granularidade operacional variável:
-
Os relatórios resumidos fornecem visibilidade do uso da computação em toda a organização, agregando o total de horas GPU/CPU/Neuron principais por equipe (namespace) e distinguindo entre uso regular (recursos da cota alocada de uma equipe) e computação emprestada (capacidade de estouro de pools compartilhados).
-
Relatórios detalhados oferecem detalhamentos em nível de tarefa por equipe, rastreando as horas de computação exatas gastas executando tarefas específicas, incluindo tarefas antecipadas, padrões de utilização por hora e alocações específicas para namespaces.
Importante
HyperPod os relatórios de uso rastreiam a utilização da computação em todos os namespaces do Kubernetes em um cluster, incluindo aqueles gerenciados pela Governança de Tarefas, namespaces padrão e namespaces criados fora da Governança de Tarefas (por exemplo, por meio de chamadas diretas à API do Kubernetes ou ferramentas externas). Esse monitoramento em nível de infraestrutura garante uma responsabilidade abrangente baseada no uso, evitando lacunas na atribuição de custos para clusters compartilhados, independentemente de como os namespaces são gerenciados.
Formatos de relatórios e intervalo de tempo
Usando o script Python fornecido emGere relatórios, os administradores podem gerar relatórios de uso sob demanda nos formatos CSV ou PDF, selecionando intervalos de tempo de instantâneos diários a janelas históricas de 180 dias (6 meses).
nota
Você pode configurar a janela histórica para se estender além do máximo padrão de 180 dias ao configurar a infraestrutura de relatórios. Para obter mais informações sobre como configurar o período de retenção de dados, consulte Instalar a infraestrutura do relatório de uso usando CloudFormation
Casos de uso ilustrativos
Esse recurso aborda cenários críticos em AI/ML ambientes multilocatários, como:
-
Alocação de custos para clusters compartilhados: um administrador gerencia um HyperPod cluster compartilhado por 20 equipes que treinam modelos generativos de IA. Usando um relatório resumido de uso, eles analisam a utilização diária da GPU em 180 dias e descobrem que a Equipe A consumiu 200 horas de GPU de um tipo específico de instância — 170 da cota alocada e 30 da computação emprestada. O administrador fatura a Equipe A com base nesse uso relatado.
-
Auditoria e resolução de disputas: uma equipe financeira questiona a precisão da atribuição de custos, citando inconsistências. O administrador pode exportar um relatório detalhado em nível de tarefa para auditar discrepâncias. Ao cruzar registros de data e hora, tipos de instância e trabalhos antecipados no namespace da equipe, o relatório reconcilia de forma transparente os dados de uso contestados.