GPU 가속 컨테이너 실행(EC2의 Linux)

Amazon EKS 최적화 가속 Amazon Linux AMI는 표준 Amazon EKS 최적화 Amazon Linux AMI를 기반으로 빌드됩니다. AMI에 대한 자세한 내용은 Amazon EKS 최적화 가속 Amazon Linux AMI 섹션을 참조하세요. 다음 텍스트에서는 AWS Neuron 기반 워크로드를 활성화하는 방법을 설명합니다.

AWS Neuron(ML 가속기) 기반 워크로드를 활성화하려면

Amazon EKS에서 Neuron을 사용하는 교육 및 추론 워크로드에 대한 자세한 내용은 다음 참조를 참조하세요.

AWS Neuron Documentation의 Containers - Kubernetes - Getting Started
GitHub의 AWS Neuron EKS Samples의 Training
Amazon EKS에서 AWSInferentia로 ML 추론 워크로드 배포하기

다음 절차에서는 Amazon EKS 최적화 가속 AMI를 사용하여 GPU 기반 인스턴스에서 워크로드를 실행하는 방법을 설명합니다.

GPU 노드가 클러스터에 조인하면 클러스터에서 Kubernetes용 NVIDIA 디바이스 플러그인을 DaemonSet으로 적용해야 합니다. 다음 명령을 실행하기 전에 vX.X.X를 원하는 NVIDIA/k8s-device-plugin 버전으로 바꿉니다.
```
kubectl apply -f https://raw.githubusercontent.com/NVIDIA/k8s-device-plugin/vX.X.X/deployments/static/nvidia-device-plugin.yml
```

다음 명령으로 노드에 할당 가능한 GPU가 있는지 확인할 수 있습니다.


kubectl get nodes "-o=custom-columns=NAME:.metadata.name,GPU:.status.allocatable.nvidia\.com/gpu"

다음 콘텐츠를 가진 nvidia-smi.yaml이라는 파일을 생성합니다: 태그를 nvidia/cuda에 대해 원하는 태그로 바꿉니다. 이 매니페스트는 노드에서 nvidia-smi를 실행하는 NVIDIA CUDA 컨테이너를 실행합니다.
```
apiVersion: v1
kind: Pod
metadata:
  name: nvidia-smi
spec:
  restartPolicy: OnFailure
  containers:
  - name: nvidia-smi
    image: nvidia/cuda:tag
    args:
    - "nvidia-smi"
    resources:
      limits:
        nvidia.com/gpu: 1
```
다음 명령으로 매니페스트를 적용합니다.
```
kubectl apply -f nvidia-smi.yaml
```

포드 실행이 끝난 후, 다음 명령을 사용하여 로그를 확인합니다.


kubectl logs nvidia-smi

예제 출력은 다음과 같습니다.


Mon Aug  6 20:23:31 20XX
+-----------------------------------------------------------------------------+
| NVIDIA-SMI XXX.XX                 Driver Version: XXX.XX                    |
|-------------------------------+----------------------+----------------------+
| GPU  Name        Persistence-M| Bus-Id        Disp.A | Volatile Uncorr. ECC |
| Fan  Temp  Perf  Pwr:Usage/Cap|         Memory-Usage | GPU-Util  Compute M. |
|===============================+======================+======================|
|   0  Tesla V100-SXM2...  On   | 00000000:00:1C.0 Off |                    0 |
| N/A   46C    P0    47W / 300W |      0MiB / 16160MiB |      0%      Default |
+-------------------------------+----------------------+----------------------+
+-----------------------------------------------------------------------------+
| Processes:                                                       GPU Memory |
|  GPU       PID   Type   Process name                             Usage      |
|=============================================================================|
|  No running processes found                                                 |
+-----------------------------------------------------------------------------+

javascript가 브라우저에서 비활성화되거나 사용이 불가합니다.

AWS 설명서를 사용하려면 Javascript가 활성화되어야 합니다. 지침을 보려면 브라우저의 도움말 페이지를 참조하십시오.

문서 규칙

클러스터 구성

Windows GPU AMI 설정