Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.
Questa sezione include informazioni su come configurare il componente aggiuntivo Amazon SageMaker HyperPod task governance EKS. Ciò include la concessione di autorizzazioni che consentono di impostare la priorità delle attività, l'allocazione del calcolo per i team, il modo in cui viene condivisa l'elaborazione inattiva e la priorità delle attività per i team.
Se riscontri problemi di configurazione, consulta le soluzioni note per la risoluzione dei problemi. Risoluzione dei problemi
Argomenti
Impostazioni Kueue
HyperPod Il componente aggiuntivo EKS di task governance installa Kueue
Versione HyperPod aggiuntiva EKS Task Governance | Versione di Kueue installata come parte del componente aggiuntivo | La sua versione kube-rbac-proxy viene installata come parte del componente aggiuntivo |
---|---|---|
v1.0.0 |
v0.8.1 |
v0.18.1 |
HyperPod la governance delle attività sfrutta Kueue per l'accodamento, la pianificazione e la gestione delle quote dei lavori nativi di Kubernetes e viene installata con il componente aggiuntivo EKS per la governance delle attività. HyperPod Una volta installato, HyperPod crea e modifica risorse Kubernetes gestite SageMaker dall'intelligenza artificiale come,,, e. KueueManagerConfig
ClusterQueues
LocalQueues
WorkloadPriorityClasses
ResourceFlavors
ValidatingAdmissionPolicies
Sebbene gli amministratori di Kubernetes abbiano la flessibilità necessaria per modificare lo stato di queste risorse, è possibile che qualsiasi modifica apportata a una risorsa gestita dall' SageMaker IA possa essere aggiornata e sovrascritta dal servizio.
Le seguenti informazioni descrivono le impostazioni di configurazione utilizzate dal componente aggiuntivo Task Governance per configurare Kueue. HyperPod
apiVersion: config.kueue.x-k8s.io/v1beta1
kind: Configuration
health:
healthProbeBindAddress: :8081
metrics:
bindAddress: :8080
enableClusterQueueResources: true
webhook:
port: 9443
manageJobsWithoutQueueName: false
leaderElection:
leaderElect: true
resourceName: c1f6bfd2.kueue.x-k8s.io
controller:
groupKindConcurrency:
Job.batch: 5
Pod: 5
Workload.kueue.x-k8s.io: 5
LocalQueue.kueue.x-k8s.io: 1
ClusterQueue.kueue.x-k8s.io: 1
ResourceFlavor.kueue.x-k8s.io: 1
clientConnection:
qps: 50
burst: 100
integrations:
frameworks:
- "batch/job"
- "kubeflow.org/mpijob"
- "ray.io/rayjob"
- "ray.io/raycluster"
- "jobset.x-k8s.io/jobset"
- "kubeflow.org/mxjob"
- "kubeflow.org/paddlejob"
- "kubeflow.org/pytorchjob"
- "kubeflow.org/tfjob"
- "kubeflow.org/xgboostjob"
- "pod"
podOptions:
namespaceSelector:
matchExpressions:
- key: kubernetes.io/metadata.name
operator: NotIn
values: [ kube-system, kueue-system ]
fairSharing:
enable: true
preemptionStrategies: [LessThanOrEqualToFinalShare, LessThanInitialShare]
resources:
excludeResourcePrefixes: []
Per ulteriori informazioni su ciascuna voce di configurazione, consulta Configurazione
HyperPodPrerequisiti per la governance delle attività
-
Se non l'hai già fatto, vedi Utenti IAM per amministratori di cluster nell'esempio la politica di autorizzazione minima per gli amministratori HyperPod del cluster. Ciò include le autorizzazioni per eseguire il SageMaker HyperPod core APIs e gestire SageMaker HyperPod i cluster all'interno dell'utente Account AWS, che esegue le attività in esso contenute. SageMaker HyperPod operazione
-
Dovrai avere la tua versione di Kubernetes >= 1.30. Per istruzioni, consulta Aggiornare i cluster esistenti alla nuova versione di Kubernetes.
-
Se hai già installato Kueue nei loro cluster, disinstalla Kueue prima di installare il componente aggiuntivo EKS.
-
Un HyperPod nodo deve già esistere nel cluster EKS prima di installare il componente aggiuntivo Task Governance. HyperPod
HyperPod configurazione della governance delle attività
Di seguito vengono fornite informazioni su come impostare la governance delle HyperPod attività.
Di seguito vengono fornite informazioni su come configurare la governance delle HyperPod attività utilizzando la SageMaker HyperPod console.
Hai già tutte le seguenti autorizzazioni allegate se hai già concesso le autorizzazioni per gestire Amazon CloudWatch Observability EKS e visualizzare il dashboard del HyperPod cluster tramite la console SageMaker AI in. HyperPod Configurazione del componente aggiuntivo Amazon CloudWatch Observability EKS Se non l'hai configurata, utilizza la politica di esempio riportata di seguito per concedere le autorizzazioni per gestire il componente aggiuntivo HyperPod Task Governance e visualizzare la dashboard del HyperPod cluster tramite la console AI. SageMaker
{
"Version": "2012-10-17",
"Statement": [
{
"Effect": "Allow",
"Action": [
"eks:ListAddons",
"eks:CreateAddon",
"eks:UpdateAddon",
"eks:DescribeAddon",
"eks:DescribeAddonVersions",
"sagemaker:DescribeCluster",
"sagemaker:DescribeClusterNode",
"sagemaker:ListClusterNodes",
"sagemaker:ListClusters",
"eks:DescribeCluster",
"eks:AccessKubernetesApi"
],
"Resource": "*"
}
]
}
Vai alla scheda Dashboard nella SageMaker HyperPod console per installare il componente aggiuntivo Amazon SageMaker HyperPod Task Governance.
Puoi visualizzare la scheda Policies nella console HyperPod SageMaker AI se l'installazione è andata a buon fine. È inoltre possibile utilizzare il seguente AWS CLI comando describe-addon
aws eks describe-addon --region
region
--cluster-namecluster-name
--addon-name amazon-sagemaker-hyperpod-taskgovernance