翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。
このセクションでは、Amazon SageMaker HyperPod タスクガバナンス EKS アドオンを設定する方法について説明します。これには、タスクの優先順位付け、チームのコンピューティング割り当て、アイドル状態のコンピューティングの共有方法、チームのタスクプリエンプションを設定できるアクセス許可の付与が含まれます。
設定に問題がある場合は、既知のトラブルシューティングソリューショントラブルシューティングについて「」を参照してください。
キュー設定
HyperPod タスクガバナンス EKS アドオンは、HyperPod EKS クラスターに Kueue
EKS HyperPod タスクガバナンスアドオンバージョン | アドオンの一部としてインストールされる Kueue のバージョン | アドオンの一部としてインストールされる kube-rbac-proxy のバージョン |
---|---|---|
v1.0.0 |
v0.8.1 |
v0.18.1 |
HyperPod タスクガバナンスは、Kueue for Kubernetes ネイティブのジョブキューイング、スケジューリング、クォータ管理を活用し、HyperPod タスクガバナンス EKS アドオンと共にインストールされます。インストールすると、HyperPod は 、、KueueManagerConfig
、、ResourceFlavors
、 などの SageMaker AI マネージド Kubernetes ClusterQueues
LocalQueues
WorkloadPriorityClasses
リソースを作成および変更しますValidatingAdmissionPolicies
。Kubernetes 管理者はこれらのリソースの状態を柔軟に変更できますが、SageMaker AI マネージドリソースに加えられた変更は、サービスによって更新および上書きされる可能性があります。
次の情報は、Kueue をセットアップするために HyperPod タスクガバナンスアドオンで使用される構成設定の概要を示しています。
apiVersion: config.kueue.x-k8s.io/v1beta1
kind: Configuration
health:
healthProbeBindAddress: :8081
metrics:
bindAddress: :8080
enableClusterQueueResources: true
webhook:
port: 9443
manageJobsWithoutQueueName: false
leaderElection:
leaderElect: true
resourceName: c1f6bfd2.kueue.x-k8s.io
controller:
groupKindConcurrency:
Job.batch: 5
Pod: 5
Workload.kueue.x-k8s.io: 5
LocalQueue.kueue.x-k8s.io: 1
ClusterQueue.kueue.x-k8s.io: 1
ResourceFlavor.kueue.x-k8s.io: 1
clientConnection:
qps: 50
burst: 100
integrations:
frameworks:
- "batch/job"
- "kubeflow.org/mpijob"
- "ray.io/rayjob"
- "ray.io/raycluster"
- "jobset.x-k8s.io/jobset"
- "kubeflow.org/mxjob"
- "kubeflow.org/paddlejob"
- "kubeflow.org/pytorchjob"
- "kubeflow.org/tfjob"
- "kubeflow.org/xgboostjob"
- "pod"
podOptions:
namespaceSelector:
matchExpressions:
- key: kubernetes.io/metadata.name
operator: NotIn
values: [ kube-system, kueue-system ]
fairSharing:
enable: true
preemptionStrategies: [LessThanOrEqualToFinalShare, LessThanInitialShare]
resources:
excludeResourcePrefixes: []
各設定エントリの詳細については、Kueue ドキュメントの「設定
HyperPod タスクガバナンスの前提条件
-
まだ行っていない場合は、HyperPod クラスター管理者の最小アクセス許可ポリシーの例クラスター管理者の IAM ユーザーについては、「」を参照してください。これには、SageMaker HyperPod コア APIs を実行し、 内の SageMaker HyperPod クラスターを管理し AWS アカウント、 でタスクを実行するアクセス許可が含まれますSageMaker HyperPod オペレーション。
-
Kubernetes バージョン >= 1.30 が必要です。手順については、「既存のクラスターを新しい Kubernetes バージョンに更新する」を参照してください。
-
クラスターに既に Kueue がインストールされている場合は、EKS アドオンをインストールする前に Kueue をアンインストールします。
-
HyperPod タスクガバナンスアドオンをインストールする前に、HyperPod ノードが EKS クラスターに既に存在している必要があります。
HyperPod タスクガバナンスの設定
以下に、HyperPod タスクガバナンスのセットアップ方法について説明します。
以下は、SageMaker HyperPod コンソールを使用して HyperPod タスクガバナンスをセットアップする方法に関する情報です。
Amazon CloudWatch Observability EKS を管理し、 の SageMaker AI コンソールから HyperPod クラスターダッシュボードを表示するアクセス許可を既に付与している場合は、次のアクセス許可がすべてアタッチされていますHyperPod Amazon CloudWatch Observability EKS アドオンのセットアップ。これを設定していない場合は、以下のサンプルポリシーを使用して、HyperPod タスクガバナンスアドオンを管理し、SageMaker AI コンソールを介して HyperPod クラスターダッシュボードを表示するアクセス許可を付与します。
{
"Version": "2012-10-17",
"Statement": [
{
"Effect": "Allow",
"Action": [
"eks:ListAddons",
"eks:CreateAddon",
"eks:UpdateAddon",
"eks:DescribeAddon",
"eks:DescribeAddonVersions",
"sagemaker:DescribeCluster",
"sagemaker:DescribeClusterNode",
"sagemaker:ListClusterNodes",
"sagemaker:ListClusters",
"eks:DescribeCluster",
"eks:AccessKubernetesApi"
],
"Resource": "*"
}
]
}
SageMaker HyperPod コンソールの Dashboard タブに移動して、Amazon SageMaker HyperPod タスクガバナンスアドオンをインストールします。
インストールが成功すると、HyperPod SageMaker AI コンソールでポリシータブを表示できます。次の describe-addon
aws eks describe-addon --region
region
--cluster-namecluster-name
--addon-name amazon-sagemaker-hyperpod-taskgovernance