本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。
教學課程:在 Amazon GPU 叢集中執行 EKS 任務
GPU 資源不可壓縮。為 GPU 任務 AWS Batch 建立 Pod 規格,其中請求的值等於限制的值。這是 Kubernetes 要求。
若要提交 GPU 任務,請執行下列命令。
$
aws batch submit-job --job-queue My-Eks-GPU-JQ1 --job-definition MyGPUJobOnEks_Smi --job-name My-Eks-GPU-Job
# locate information that can help debug or find logs (if using Amazon CloudWatch Logs with Fluent Bit)
$
aws batch describe-jobs --job
<job-id>
| jq '.jobs[].eksProperties.podProperties | {podName, nodeName}'{ "podName": "aws-batch.f3d697c4-3bb5-3955-aa6c-977fcf1cb0ca", "nodeName": "ip-192-168-59-101.ec2.internal" }