Prerequisiti Installazione e configurazione Implementa il tuo modello da Amazon S3 o Amazon FSx Verifica lo stato della distribuzione Gestisci la tua implementazione

Distribuisci modelli personalizzati e ottimizzati da Amazon S3 e Amazon utilizzando kubectl FSx

I passaggi seguenti mostrano come distribuire modelli archiviati su Amazon S3 o Amazon su un cluster FSx SageMaker HyperPod Amazon utilizzando kubectl.

Le seguenti istruzioni contengono celle di codice e comandi progettati per essere eseguiti in un terminale. Assicurati di aver configurato l'ambiente con AWS le credenziali prima di eseguire questi comandi.

Prerequisiti

Prima di iniziare, verifica di aver:

Configura funzionalità di inferenza sui tuoi SageMaker HyperPod cluster Amazon. Per ulteriori informazioni, consulta HyperPod Configurazione dei cluster per la distribuzione dei modelli.
Hai installato l'utilità kubectl e configurato jq nel tuo terminale.

Installazione e configurazione

Sostituisci tutti i valori segnaposto con i tuoi identificatori di risorsa effettivi.

Seleziona la tua regione nel tuo ambiente.
```
export REGION=<region>
```
Inizializza il nome del cluster. Questo identifica il HyperPod cluster in cui verrà distribuito il modello.

Nota
Rivolgiti all'amministratore del cluster per assicurarti che le autorizzazioni siano concesse per questo ruolo o utente. Puoi eseguire !aws sts get-caller-identity --query "Arn" l'operazione per verificare quale ruolo o utente stai utilizzando nel tuo terminale.
```
# Specify your hyperpod cluster name here
HYPERPOD_CLUSTER_NAME="<Hyperpod_cluster_name>"

# NOTE: For sample deployment, we use g5.8xlarge for deepseek-r1 1.5b model which has sufficient memory and GPU
instance_type="ml.g5.8xlarge"
```
Inizializza lo spazio dei nomi del cluster. L'amministratore del cluster dovrebbe aver già creato un account del servizio di inferenza hyperpod nel tuo spazio dei nomi.
```
cluster_namespace="<namespace>"
```

Crea un CRD utilizzando una delle seguenti opzioni:

Using Amazon FSx as the model source

Imposta il nome di un SageMaker endpoint.


export SAGEMAKER_ENDPOINT_NAME="deepseek15b-fsx"

Configura l'ID del FSx file system Amazon da utilizzare.
```
export FSX_FILE_SYSTEM_ID="fs-1234abcd"
```

Di seguito è riportato un file yaml di esempio per la creazione di un endpoint con Amazon FSx e un modello. DeepSeek

cat <<EOF> deploy_fsx_cluster_inference.yaml
---
apiVersion: inference.sagemaker.aws.amazon.com/v1alpha1
kind: InferenceEndpointConfig
metadata:
  name: $SAGEMAKER_ENDPOINT_NAME
  namespace: $CLUSTER_NAMESPACE
spec:
  endpointName: $SAGEMAKER_ENDPOINT_NAME
  instanceType: $INSTANCE_TYPE
  invocationEndpoint: invocations
  modelName: deepseek15b
  modelSourceConfig:
    fsxStorage:
      fileSystemId: $FSX_FILE_SYSTEM_ID
    modelLocation: deepseek-1-5b
    modelSourceType: fsx
  worker:
    environmentVariables:
    - name: HF_MODEL_ID
      value: /opt/ml/model
    - name: SAGEMAKER_PROGRAM
      value: inference.py
    - name: SAGEMAKER_SUBMIT_DIRECTORY
      value: /opt/ml/model/code
    - name: MODEL_CACHE_ROOT
      value: /opt/ml/model
    - name: SAGEMAKER_ENV
      value: '1'
    image: 763104351884.dkr.ecr.us-east-2.amazonaws.com/huggingface-pytorch-tgi-inference:2.4.0-tgi2.3.1-gpu-py311-cu124-ubuntu22.04-v2.0
    modelInvocationPort:
      containerPort: 8080
      name: http
    modelVolumeMount:
      mountPath: /opt/ml/model
      name: model-weights
    resources:
      limits:
        nvidia.com/gpu: 1
      requests:
        cpu: 30000m
        memory: 100Gi
        nvidia.com/gpu: 1
EOF

Using Amazon S3 as the model source

Imposta il nome di un endpoint SageMaker .


export SAGEMAKER_ENDPOINT_NAME="deepseek15b-s3"

Configura la posizione del bucket Amazon S3 in cui si trova il modello.
```
export S3_MODEL_LOCATION="deepseek-qwen-1-5b"
```

Di seguito è riportato un file yaml di esempio per la creazione di un endpoint con Amazon S3 e un modello. DeepSeek

cat <<EOF> deploy_s3_inference.yaml
---
apiVersion: inference.sagemaker.aws.amazon.com/v1alpha1
kind: InferenceEndpointConfig
metadata:
  name: $SAGEMAKER_ENDPOINT_NAME
  namespace: $CLUSTER_NAMESPACE
spec:
  modelName: deepseek15b
  endpointName: $SAGEMAKER_ENDPOINT_NAME
  instanceType: ml.g5.8xlarge
  invocationEndpoint: invocations
  modelSourceConfig:
    modelSourceType: s3
    s3Storage:
      bucketName: $S3_MODEL_LOCATION
      region: $REGION
    modelLocation: deepseek15b
    prefetchEnabled: true
  worker:
    resources:
      limits:
        nvidia.com/gpu: 1
      requests:
        nvidia.com/gpu: 1
        cpu: 25600m
        memory: 102Gi
    image: 763104351884.dkr.ecr.us-east-2.amazonaws.com/djl-inference:0.32.0-lmi14.0.0-cu124
    modelInvocationPort:
      containerPort: 8080
      name: http
    modelVolumeMount:
      name: model-weights
      mountPath: /opt/ml/model
    environmentVariables:
      - name: OPTION_ROLLING_BATCH
        value: "vllm"
      - name: SERVING_CHUNKED_READ_TIMEOUT
        value: "480"
      - name: DJL_OFFLINE
        value: "true"
      - name: NUM_SHARD
        value: "1"
      - name: SAGEMAKER_PROGRAM
        value: "inference.py"
      - name: SAGEMAKER_SUBMIT_DIRECTORY
        value: "/opt/ml/model/code"
      - name: MODEL_CACHE_ROOT
        value: "/opt/ml/model"
      - name: SAGEMAKER_MODEL_SERVER_WORKERS
        value: "1"
      - name: SAGEMAKER_MODEL_SERVER_TIMEOUT
        value: "3600"
      - name: OPTION_TRUST_REMOTE_CODE
        value: "true"
      - name: OPTION_ENABLE_REASONING
        value: "true"
      - name: OPTION_REASONING_PARSER
        value: "deepseek_r1"
      - name: SAGEMAKER_CONTAINER_LOG_LEVEL
        value: "20"
      - name: SAGEMAKER_ENV
        value: "1"
EOF

Implementa il tuo modello da Amazon S3 o Amazon FSx

Ottieni il nome del cluster Amazon EKS dall'ARN del HyperPod cluster per l'autenticazione kubectl.


export EKS_CLUSTER_NAME=$(aws --region $REGION sagemaker describe-cluster --cluster-name $HYPERPOD_CLUSTER_NAME \
  --query 'Orchestrator.Eks.ClusterArn' --output text | \
  cut -d'/' -f2)
aws eks update-kubeconfig --name $EKS_CLUSTER_NAME --region $REGION

Implementa il tuo InferenceEndpointConfig modello con una delle seguenti opzioni:
Deploy with Amazon FSx as a source
```
kubectl apply -f deploy_fsx_luster_inference.yaml
```
Deploy with Amazon S3 as a source
```
kubectl apply -f deploy_s3_inference.yaml
```

Verifica lo stato della distribuzione

Verifica se il modello è stato distribuito correttamente.


kubectl describe InferenceEndpointConfig $SAGEMAKER_ENDPOINT_NAME -n $CLUSTER_NAMESPACE

Verifica che l'endpoint sia stato creato correttamente.


kubectl describe SageMakerEndpointRegistration $SAGEMAKER_ENDPOINT_NAME -n $CLUSTER_NAMESPACE

Testa l'endpoint distribuito per verificare che funzioni correttamente. Questo passaggio conferma che il modello è stato distribuito correttamente e può elaborare le richieste di inferenza.


aws sagemaker-runtime invoke-endpoint \
  --endpoint-name $SAGEMAKER_ENDPOINT_NAME \
  --content-type "application/json" \
  --body '{"inputs": "What is AWS SageMaker?"}' \
  --region $REGION \
  --cli-binary-format raw-in-base64-out \
  /dev/stdout

Gestisci la tua implementazione

Al termine del test della distribuzione, utilizza i seguenti comandi per ripulire le risorse.

Nota

Verifica di non aver più bisogno del modello distribuito o dei dati memorizzati prima di procedere.

Pulizia delle risorse

Elimina la distribuzione dell'inferenza e le risorse Kubernetes associate. Ciò interrompe l'esecuzione dei contenitori del modello e rimuove l'endpoint. SageMaker
```
kubectl delete inferenceendpointconfig $SAGEMAKER_ENDPOINT_NAME -n $CLUSTER_NAMESPACE
```

Verifica che la pulizia sia stata eseguita correttamente.


# # Check that Kubernetes resources are removed
kubectl get pods,svc,deployment,InferenceEndpointConfig,sagemakerendpointregistration -n $CLUSTER_NAMESPACE


# Verify SageMaker endpoint is deleted (should return error or empty)
aws sagemaker describe-endpoint --endpoint-name $SAGEMAKER_ENDPOINT_NAME --region $REGION

Risoluzione dei problemi

Usa questi comandi di debug se la distribuzione non funziona come previsto.

Controlla lo stato della distribuzione di Kubernetes.


kubectl describe deployment $SAGEMAKER_ENDPOINT_NAME -n $CLUSTER_NAMESPACE

Controlla lo InferenceEndpointConfig stato per vedere lo stato di implementazione di alto livello e gli eventuali problemi di configurazione.
```
kubectl describe InferenceEndpointConfig $SAGEMAKER_ENDPOINT_NAME -n $CLUSTER_NAMESPACE
```
Controlla lo stato di tutti gli oggetti Kubernetes. Ottieni una visione completa di tutte le risorse Kubernetes correlate nel tuo namespace. Questo ti offre una rapida panoramica di ciò che è in esecuzione e di ciò che potrebbe mancare.
```
kubectl get pods,svc,deployment,InferenceEndpointConfig,sagemakerendpointregistration -n $CLUSTER_NAMESPACE
```

Avvertimento JavaScript è disabilitato o non è disponibile nel tuo browser.

Per usare la documentazione AWS, JavaScript deve essere abilitato. Consulta le pagine della guida del browser per le istruzioni.

Convenzioni dei documenti

Distribuisci modelli usando kubectl JumpStart

Dimensionamento automatico