L' TrainingJob opérateur L' HyperParameterTuningJobopérateur L' BatchTransformJob opérateur L' HostingDeployment opérateur L' ProcessingJob opérateur HostingAutoscalingPolicy (HAP) Opérateur

Utilisez Amazon SageMaker Jobs

Cette section est basée sur la version originale d'SageMaker Operators for Kubernetes.

Important

Nous arrêtons le développement et le support technique de la version originale d' SageMaker Operators for Kubernetes.

Si vous utilisez actuellement la version v1.2.2 ou une version inférieure d' SageMaker Operators for Kubernetes, nous vous recommandons de migrer vos ressources vers le contrôleur de service ACK pour Amazon. SageMaker Le contrôleur de service ACK est une nouvelle génération d' SageMaker opérateurs pour Kubernetes basés sur les AWS contrôleurs pour Kubernetes (ACK).

Pour en savoir plus sur les étapes de migration, consultez Migrer les ressources vers la dernière version d'Operators.

Pour obtenir les réponses aux questions fréquemment posées concernant la fin du support de la version originale d' SageMaker Operators for Kubernetes, voir Annonce de la fin du support de la version originale des SageMaker opérateurs pour Kubernetes

Pour exécuter une SageMaker tâche Amazon à l'aide des opérateurs pour Kubernetes, vous pouvez appliquer un fichier YAML ou utiliser les Helm Charts fournis.

Tous les exemples de tâches d'opérateur dans les tutoriels suivants utilisent des exemples de données provenant d'un jeu de données MNIST public. Pour exécuter ces exemples, téléchargez le jeu de données dans votre compartiment Amazon S3. Vous pouvez trouver le jeu de données dans la section Download the MNIST Dataset.

L' TrainingJob opérateur

Les opérateurs de tâches de formation concilient les spécifications du poste de formation que vous avez spécifiées en le SageMaker lançant pour vous dans SageMaker. Pour en savoir plus sur les tâches de SageMaker formation, consultez la documentation de l' SageMaker CreateTrainingJob API.

Rubriques

Créez un à TrainingJob l'aide d'un fichier YAML
Création d'un graphique TrainingJob à l'aide d'un helm
Liste TrainingJobs
Décrivez un TrainingJob
Afficher les journaux de TrainingJobs
Supprimer TrainingJobs

Créez un à TrainingJob l'aide d'un fichier YAML

Téléchargez l'exemple de fichier YAML pour l'entraînement à l'aide de la commande suivante :


wget https://raw.githubusercontent.com/aws/amazon-sagemaker-operator-for-k8s/master/samples/xgboost-mnist-trainingjob.yaml

Modifiez le xgboost-mnist-trainingjob.yaml fichier pour remplacer le roleArn paramètre par votre <sagemaker-execution-role> compartiment Amazon S3 et outputPath par le compartiment Amazon S3 auquel le rôle SageMaker d'exécution a accès en écriture. Ils roleArn doivent disposer d'autorisations pour SageMaker accéder à Amazon S3 CloudWatch, Amazon et à d'autres services en votre nom. Pour plus d'informations sur la création d'un SageMaker ExecutionRole, consultez la section SageMaker Rôles. Appliquez le fichier YAML à l'aide de la commande suivante :
```
kubectl apply -f xgboost-mnist-trainingjob.yaml
```

Création d'un graphique TrainingJob à l'aide d'un helm

Vous pouvez utiliser Helm Charts pour exécuter TrainingJobs.

Clonez le GitHub dépôt pour obtenir le code source à l'aide de la commande suivante :
```
git clone https://github.com/aws/amazon-sagemaker-operator-for-k8s.git
```
Accédez au dossier amazon-sagemaker-operator-for-k8s/hack/charts/training-jobs/ et modifiez le fichier values.yaml pour remplacer des valeurs comme rolearn et outputpath par des valeurs qui correspondent à votre compte. Le ROLearn doit disposer d'autorisations pour SageMaker pouvoir accéder à Amazon S3 CloudWatch, Amazon et à d'autres services en votre nom. Pour plus d'informations sur la création d'un SageMaker ExecutionRole, consultez la section SageMaker Rôles.

Créez le TrainingJob

Lorsque les rôles et les compartiments Amazon S3 ont été remplacés par des valeurs appropriées dans values.yaml, vous pouvez créer une tâche d'entraînement à l'aide de la commande suivante :


helm install . --generate-name

Le résultat doit être similaire à ce qui suit :


NAME: chart-12345678
LAST DEPLOYED: Wed Nov 20 23:35:49 2019
NAMESPACE: default
STATUS: deployed
REVISION: 1
TEST SUITE: None
NOTES:
Thanks for installing the sagemaker-k8s-trainingjob.

Vérification de votre Chart de Helm d'entraînement

Pour vérifier que le Chart de Helm a bien été créé, exécutez :


helm ls

Le résultat doit être similaire à ce qui suit :


NAME                    NAMESPACE       REVISION        UPDATED                                 STATUS          CHART                           APP VERSION
chart-12345678        default         1               2019-11-20 23:35:49.9136092 +0000 UTC   deployed        sagemaker-k8s-trainingjob-0.1.0
rolebased-12345678    default         1               2019-11-20 23:14:59.6777082 +0000 UTC   deployed        sagemaker-k8s-operator-0.1.0

helm install crée une ressource Kubernetes TrainingJob. L'opérateur lance la tâche de formation proprement dite dans SageMaker et met à jour la ressource TrainingJob Kubernetes pour refléter le statut de la tâche dans. SageMaker Vous devez payer des frais pour les SageMaker ressources utilisées pendant la durée de votre travail. Vous ne payez pas de frais une fois votre tâche terminée ou arrêtée.

Remarque : SageMaker ne vous permet pas de mettre à jour une tâche d'entraînement en cours d'exécution. Vous ne pouvez pas modifier un paramètre et réappliquer le fichier de configuration. Modifiez le nom des métadonnées ou supprimez la tâche existante et créez-en une autre. À l'instar des opérateurs de tâche d'entraînement existants tels que TFJob dans Kubeflow, update n'est pas pris en charge.

Liste TrainingJobs

Utilisez la commande suivante pour répertorier toutes les tâches créées à l'aide de l'opérateur Kubernetes :


kubectl get TrainingJob

Le résultat pour toutes les tâches répertoriées doit ressembler à ce qui suit :


kubectl get trainingjobs
NAME                        STATUS       SECONDARY-STATUS   CREATION-TIME          SAGEMAKER-JOB-NAME
xgboost-mnist-from-for-s3   InProgress   Starting           2019-11-20T23:42:35Z   xgboost-mnist-from-for-s3-examplef11eab94e0ed4671d5a8f

Une tâche d'entraînement reste répertoriée après son achèvement ou son échec. Vous pouvez supprimer une tâche TrainingJob de la liste en suivant la procédure Supprimer TrainingJobs. Les tâches terminées ou interrompues ne sont pas facturées pour les SageMaker ressources.

TrainingJob valeurs de statut

Le champ STATUS peut comporter l'une des valeurs suivantes :

Completed
InProgress
Failed
Stopped
Stopping

Ces statuts proviennent directement de la documentation SageMaker officielle de l'API.

En plus du SageMaker statut officiel, il est possible de STATUS l'êtreSynchronizingK8sJobWithSageMaker. Cela signifie que l'opérateur n'a pas encore traité la tâche.

Valeurs du statut secondaire

Les statuts secondaires proviennent directement de la documentation SageMaker officielle de l'API. Ils contiennent des informations plus détaillées sur le statut de la tâche.

Décrivez un TrainingJob

Vous pouvez obtenir plus d'informations sur la tâche d'entraînement en utilisant la commande describe kubectl. Elle est généralement utilisée pour déboguer un problème ou vérifier les paramètres d'une tâche d'entraînement. Pour obtenir des informations sur votre tâche d'entraînement, utilisez la commande suivante :


kubectl describe trainingjob xgboost-mnist-from-for-s3

Le résultat de votre tâche d'entraînement doit ressembler à ce qui suit :


Name:         xgboost-mnist-from-for-s3
Namespace:    default
Labels:       <none>
Annotations:  <none>
API Version:  sagemaker.aws.amazon.com/v1
Kind:         TrainingJob
Metadata:
  Creation Timestamp:  2019-11-20T23:42:35Z
  Finalizers:
    sagemaker-operator-finalizer
  Generation:        2
  Resource Version:  23119
  Self Link:         /apis/sagemaker.aws.amazon.com/v1/namespaces/default/trainingjobs/xgboost-mnist-from-for-s3
  UID:               6d7uiui-0bef-11ea-b94e-0ed467example
Spec:
  Algorithm Specification:
    Training Image:       8256416981234.dkr.ecr.us-east-2.amazonaws.com/xgboost:1
    Training Input Mode:  File
  Hyper Parameters:
    Name:   eta
    Value:  0.2
    Name:   gamma
    Value:  4
    Name:   max_depth
    Value:  5
    Name:   min_child_weight
    Value:  6
    Name:   num_class
    Value:  10
    Name:   num_round
    Value:  10
    Name:   objective
    Value:  multi:softmax
    Name:   silent
    Value:  0
  Input Data Config:
    Channel Name:      train
    Compression Type:  None
    Content Type:      text/csv
    Data Source:
      S 3 Data Source:
        S 3 Data Distribution Type:  FullyReplicated
        S 3 Data Type:               S3Prefix
        S 3 Uri:                     https://s3-us-east-2.amazonaws.com/my-bucket/sagemaker/xgboost-mnist/train/
    Channel Name:                    validation
    Compression Type:                None
    Content Type:                    text/csv
    Data Source:
      S 3 Data Source:
        S 3 Data Distribution Type:  FullyReplicated
        S 3 Data Type:               S3Prefix
        S 3 Uri:                     https://s3-us-east-2.amazonaws.com/my-bucket/sagemaker/xgboost-mnist/validation/
  Output Data Config:
    S 3 Output Path:  s3://my-bucket/sagemaker/xgboost-mnist/xgboost/
  Region:             us-east-2
  Resource Config:
    Instance Count:     1
    Instance Type:      ml.m4.xlarge
    Volume Size In GB:  5
  Role Arn:             arn:aws:iam::12345678910:role/service-role/AmazonSageMaker-ExecutionRole
  Stopping Condition:
    Max Runtime In Seconds:  86400
  Training Job Name:         xgboost-mnist-from-for-s3-6d7fa0af0bef11eab94e0example
Status:
  Cloud Watch Log URL:           https://us-east-2.console.aws.amazon.com/cloudwatch/home?region=us-east-2#logStream:group=/aws/sagemaker/TrainingJobs;prefix=<example>;streamFilter=typeLogStreamPrefix
  Last Check Time:               2019-11-20T23:44:29Z
  Sage Maker Training Job Name:  xgboost-mnist-from-for-s3-6d7fa0af0bef11eab94eexample
  Secondary Status:              Downloading
  Training Job Status:           InProgress
Events:                          <none>

Afficher les journaux de TrainingJobs

Utilisez la commande suivante pour consulter les journaux depuis la tâche d'entraînement kmeans-mnist :


kubectl smlogs trainingjob xgboost-mnist-from-for-s3

Votre sortie doit ressembler à ce qui suit : Les journaux des instances sont classés par ordre chronologique.


"xgboost-mnist-from-for-s3" has SageMaker TrainingJobName "xgboost-mnist-from-for-s3-123456789" in region "us-east-2", status "InProgress" and secondary status "Starting"
xgboost-mnist-from-for-s3-6d7fa0af0bef11eab94e0ed46example/algo-1-1574293123 2019-11-20 23:45:24.7 +0000 UTC Arguments: train
xgboost-mnist-from-for-s3-6d7fa0af0bef11eab94e0ed46example/algo-1-1574293123 2019-11-20 23:45:24.7 +0000 UTC [2019-11-20:23:45:22:INFO] Running standalone xgboost training.
xgboost-mnist-from-for-s3-6d7fa0af0bef11eab94e0ed46example/algo-1-1574293123 2019-11-20 23:45:24.7 +0000 UTC [2019-11-20:23:45:22:INFO] File size need to be processed in the node: 1122.95mb. Available memory size in the node: 8586.0mb
xgboost-mnist-from-for-s3-6d7fa0af0bef11eab94e0ed46example/algo-1-1574293123 2019-11-20 23:45:24.7 +0000 UTC [2019-11-20:23:45:22:INFO] Determined delimiter of CSV input is ','
xgboost-mnist-from-for-s3-6d7fa0af0bef11eab94e0ed46example/algo-1-1574293123 2019-11-20 23:45:24.7 +0000 UTC [23:45:22] S3DistributionType set as FullyReplicated

Supprimer TrainingJobs

Utilisez la commande suivante pour arrêter une tâche de formation sur Amazon SageMaker :


kubectl delete trainingjob xgboost-mnist-from-for-s3

Cette commande supprime la tâche de SageMaker formation de Kubernetes. Cette commande renvoie le résultat suivant :


trainingjob.sagemaker.aws.amazon.com "xgboost-mnist-from-for-s3" deleted

Si la tâche est toujours en cours SageMaker, elle s'arrête. Aucuns frais ne vous seront facturés pour les SageMaker ressources une fois votre travail arrêté ou terminé.

Remarque : SageMaker ne supprime pas les tâches de formation. Les tâches arrêtées continuent de s'afficher sur la SageMaker console. La delete commande prend environ 2 minutes pour nettoyer les ressources SageMaker.

L' HyperParameterTuningJobopérateur

Les opérateurs de tâche de réglage des hyperparamètres concilient la spécification de la tâche de réglage des hyperparamètres spécifiée SageMaker en la lançant. SageMaker Pour en savoir plus sur les tâches de réglage des SageMaker hyperparamètres, consultez la documentation de l' SageMaker CreateHyperParameterTuningJob API.

Rubriques

Créez un à HyperparameterTuningJob l'aide d'un fichier YAML
Création d'un graphique HyperparameterTuningJob à l'aide d'un Helm
Liste HyperparameterTuningJobs
Décrivez un HyperparameterTuningJob
Afficher les journaux de HyperparameterTuningJobs
Supprimer un HyperparameterTuningJob

Créez un à HyperparameterTuningJob l'aide d'un fichier YAML

Téléchargez l'exemple de fichier YAML pour la tâche de réglage d'hyperparamètre à l'aide de la commande suivante :
```
wget https://raw.githubusercontent.com/aws/amazon-sagemaker-operator-for-k8s/master/samples/xgboost-mnist-hpo.yaml
```
Modifiez le fichier xgboost-mnist-hpo.yaml pour remplacer le paramètre roleArn par votre sagemaker-execution-role. Pour que la tâche de réglage d'hyperparamètre aboutisse, vous devez également modifier les valeurs s3InputPath et s3OutputPath qui correspondent à votre compte. Appliquez le fichier YAML de mises à jour à l'aide de la commande suivante :
```
kubectl apply -f xgboost-mnist-hpo.yaml
```

Création d'un graphique HyperparameterTuningJob à l'aide d'un Helm

Vous pouvez utiliser les Charts de Helm pour exécuter des tâches de réglage d'hyperparamètre.

Clonez le GitHub dépôt pour obtenir le code source à l'aide de la commande suivante :
```
git clone https://github.com/aws/amazon-sagemaker-operator-for-k8s.git
```
Accédez au dossier amazon-sagemaker-operator-for-k8s/hack/charts/hyperparameter-tuning-jobs/.
Modifiez le fichier values.yaml pour remplacer le paramètre roleArn par votre sagemaker-execution-role. Pour que la tâche de réglage d'hyperparamètre aboutisse, vous devez également modifier les valeurs s3InputPath et s3OutputPath qui correspondent à votre compte.

Créez le HyperparameterTuningJob

Lorsque les rôles et les chemins Amazon S3 ont été remplacés par des valeurs appropriées dans values.yaml, vous pouvez créer une tâche de réglage d'hyperparamètre à l'aide de la commande suivante :


helm install . --generate-name

Votre sortie doit ressembler à ce qui suit :


NAME: chart-1574292948
LAST DEPLOYED: Wed Nov 20 23:35:49 2019
NAMESPACE: default
STATUS: deployed
REVISION: 1
TEST SUITE: None
NOTES:
Thanks for installing the sagemaker-k8s-hyperparametertuningjob.

Vérification de l'installation du Chart

Pour vérifier que le Chart de Helm a bien été créé, exécutez la commande suivante :


helm ls

Le résultat doit être similaire à ce qui suit :


NAME                    NAMESPACE       REVISION        UPDATED
chart-1474292948        default         1               2019-11-20 23:35:49.9136092 +0000 UTC   deployed        sagemaker-k8s-hyperparametertuningjob-0.1.0                               STATUS          CHART                           APP VERSION
chart-1574292948        default         1               2019-11-20 23:35:49.9136092 +0000 UTC   deployed        sagemaker-k8s-trainingjob-0.1.0
rolebased-1574291698    default         1               2019-11-20 23:14:59.6777082 +0000 UTC   deployed        sagemaker-k8s-operator-0.1.0

helm install crée une ressource Kubernetes HyperParameterTuningJob. L'opérateur lance la tâche d'optimisation des hyperparamètres proprement dite dans SageMaker et met à jour la ressource HyperParameterTuningJob Kubernetes pour refléter le statut de la tâche dans. SageMaker Vous devez payer des frais pour les SageMaker ressources utilisées pendant la durée de votre travail. Vous ne payez pas de frais une fois votre tâche terminée ou arrêtée.

Remarque : SageMaker ne vous permet pas de mettre à jour une tâche de réglage d'hyperparamètres en cours d'exécution. Vous ne pouvez pas modifier un paramètre et réappliquer le fichier de configuration. Vous devez modifier le nom des métadonnées ou supprimer la tâche existante et en créer une autre. À l'instar des opérateurs de tâche d'entraînement existants tels que TFJob dans Kubeflow, update n'est pas pris en charge.

Liste HyperparameterTuningJobs

Utilisez la commande suivante pour répertorier toutes les tâches créées à l'aide de l'opérateur Kubernetes :


kubectl get hyperparametertuningjob

Le résultat doit être similaire à ce qui suit :


NAME         STATUS      CREATION-TIME          COMPLETED   INPROGRESS   ERRORS   STOPPED   BEST-TRAINING-JOB                               SAGEMAKER-JOB-NAME
xgboost-mnist-hpo   Completed   2019-10-17T01:15:52Z   10          0            0        0         xgboostha92f5e3cf07b11e9bf6c06d6-009-4c7a123   xgboostha92f5e3cf07b11e9bf6c123

Une tâche de réglage d'hyperparamètre reste répertoriée après son achèvement ou son échec. Vous pouvez supprimer une tâche hyperparametertuningjob de la liste en suivant la procédure Supprimer un HyperparameterTuningJob. Les tâches terminées ou interrompues ne sont pas facturées pour les SageMaker ressources.

Valeurs de statut de tâche de réglage des hyperparamètres

Le champ STATUS peut comporter l'une des valeurs suivantes :

Completed
InProgress
Failed
Stopped
Stopping

Ces statuts proviennent directement de la documentation SageMaker officielle de l'API.

En plus du SageMaker statut officiel, il est possible de STATUS l'êtreSynchronizingK8sJobWithSageMaker. Cela signifie que l'opérateur n'a pas encore traité la tâche.

Compteurs de statut

Le résultat a plusieurs compteurs, comme COMPLETED et INPROGRESS. Il s'agit du nombre de tâches d'entraînement terminées et en cours, respectivement. Pour plus d'informations sur la façon dont ils sont déterminés, consultez TrainingJobStatusCountersla documentation de l' SageMaker API.

Meilleur TrainingJob

Cette colonne contient le nom de la TrainingJob qui optimisait le mieux la métrique sélectionnée.

Pour afficher un résumé des hyperparamètres réglés, exécutez :


kubectl describe hyperparametertuningjob xgboost-mnist-hpo

Pour afficher des informations détaillées sur les TrainingJob, exécutez :


kubectl describe trainingjobs <job name>

Engendré TrainingJobs

Vous pouvez également suivre les 10 tâches d'entraînement à Kubernetes démarrées par HyperparameterTuningJob en exécutant la commande suivante :


kubectl get trainingjobs

Décrivez un HyperparameterTuningJob

Vous pouvez obtenir des détails de débogage à l'aide de la commande describe kubectl.


kubectl describe hyperparametertuningjob xgboost-mnist-hpo

Outre les informations relatives à la tâche de réglage, l' SageMaker opérateur pour Kubernetes présente également la meilleure tâche de formation trouvée par la tâche de réglage des hyperparamètres dans la sortie, comme suit : describe


Name:         xgboost-mnist-hpo
Namespace:    default
Labels:       <none>
Annotations:  kubectl.kubernetes.io/last-applied-configuration:
                {"apiVersion":"sagemaker.aws.amazon.com/v1","kind":"HyperparameterTuningJob","metadata":{"annotations":{},"name":"xgboost-mnist-hpo","namespace":...
API Version:  sagemaker.aws.amazon.com/v1
Kind:         HyperparameterTuningJob
Metadata:
  Creation Timestamp:  2019-10-17T01:15:52Z
  Finalizers:
    sagemaker-operator-finalizer
  Generation:        2
  Resource Version:  8167
  Self Link:         /apis/sagemaker.aws.amazon.com/v1/namespaces/default/hyperparametertuningjobs/xgboost-mnist-hpo
  UID:               a92f5e3c-f07b-11e9-bf6c-06d6f303uidu
Spec:
  Hyper Parameter Tuning Job Config:
    Hyper Parameter Tuning Job Objective:
      Metric Name:  validation:error
      Type:         Minimize
    Parameter Ranges:
      Integer Parameter Ranges:
        Max Value:     20
        Min Value:     10
        Name:          num_round
        Scaling Type:  Linear
    Resource Limits:
      Max Number Of Training Jobs:     10
      Max Parallel Training Jobs:      10
    Strategy:                          Bayesian
    Training Job Early Stopping Type:  Off
  Hyper Parameter Tuning Job Name:     xgboostha92f5e3cf07b11e9bf6c06d6
  Region:                              us-east-2
  Training Job Definition:
    Algorithm Specification:
      Training Image:       12345678910.dkr.ecr.us-east-2.amazonaws.com/xgboost:1
      Training Input Mode:  File
    Input Data Config:
      Channel Name:  train
      Content Type:  text/csv
      Data Source:
        s3DataSource:
          s3DataDistributionType:  FullyReplicated
          s3DataType:              S3Prefix
          s3Uri:                   https://s3-us-east-2.amazonaws.com/my-bucket/sagemaker/xgboost-mnist/train/
      Channel Name:                validation
      Content Type:                text/csv
      Data Source:
        s3DataSource:
          s3DataDistributionType:  FullyReplicated
          s3DataType:              S3Prefix
          s3Uri:                   https://s3-us-east-2.amazonaws.com/my-bucket/sagemaker/xgboost-mnist/validation/
    Output Data Config:
      s3OutputPath:  https://s3-us-east-2.amazonaws.com/my-bucket/sagemaker/xgboost-mnist/xgboost
    Resource Config:
      Instance Count:     1
      Instance Type:      ml.m4.xlarge
      Volume Size In GB:  5
    Role Arn:             arn:aws:iam::123456789012:role/service-role/AmazonSageMaker-ExecutionRole
    Static Hyper Parameters:
      Name:   base_score
      Value:  0.5
      Name:   booster
      Value:  gbtree
      Name:   csv_weights
      Value:  0
      Name:   dsplit
      Value:  row
      Name:   grow_policy
      Value:  depthwise
      Name:   lambda_bias
      Value:  0.0
      Name:   max_bin
      Value:  256
      Name:   max_leaves
      Value:  0
      Name:   normalize_type
      Value:  tree
      Name:   objective
      Value:  reg:linear
      Name:   one_drop
      Value:  0
      Name:   prob_buffer_row
      Value:  1.0
      Name:   process_type
      Value:  default
      Name:   rate_drop
      Value:  0.0
      Name:   refresh_leaf
      Value:  1
      Name:   sample_type
      Value:  uniform
      Name:   scale_pos_weight
      Value:  1.0
      Name:   silent
      Value:  0
      Name:   sketch_eps
      Value:  0.03
      Name:   skip_drop
      Value:  0.0
      Name:   tree_method
      Value:  auto
      Name:   tweedie_variance_power
      Value:  1.5
    Stopping Condition:
      Max Runtime In Seconds:  86400
Status:
  Best Training Job:
    Creation Time:  2019-10-17T01:16:14Z
    Final Hyper Parameter Tuning Job Objective Metric:
      Metric Name:        validation:error
      Value:
    Objective Status:     Succeeded
    Training End Time:    2019-10-17T01:20:24Z
    Training Job Arn:     arn:aws:sagemaker:us-east-2:123456789012:training-job/xgboostha92f5e3cf07b11e9bf6c06d6-009-4sample
    Training Job Name:    xgboostha92f5e3cf07b11e9bf6c06d6-009-4c7a3059
    Training Job Status:  Completed
    Training Start Time:  2019-10-17T01:18:35Z
    Tuned Hyper Parameters:
      Name:                                    num_round
      Value:                                   18
  Hyper Parameter Tuning Job Status:           Completed
  Last Check Time:                             2019-10-17T01:21:01Z
  Sage Maker Hyper Parameter Tuning Job Name:  xgboostha92f5e3cf07b11e9bf6c06d6
  Training Job Status Counters:
    Completed:            10
    In Progress:          0
    Non Retryable Error:  0
    Retryable Error:      0
    Stopped:              0
    Total Error:          0
Events:                   <none>

Afficher les journaux de HyperparameterTuningJobs

Les tâches de réglage d'hyperparamètre n'ont pas de journaux, mais toutes les tâches d'entraînement qu'ils démarrent ont des journaux. Ces journaux sont accessibles comme s'il s'agissait d'une tâche d'entraînement normale. Pour plus d’informations, consultez Afficher les journaux de TrainingJobs.

Supprimer un HyperparameterTuningJob

Utilisez la commande suivante pour arrêter une tâche d'hyperparamètre dans SageMaker.


kubectl delete hyperparametertuningjob xgboost-mnist-hpo

Cette commande supprime la tâche de réglage des hyperparamètres et les tâches de formation associées de votre cluster Kubernetes et les arrête. SageMaker Les tâches qui ont été arrêtées ou terminées ne sont pas facturées pour les SageMaker ressources. SageMaker ne supprime pas les tâches de réglage des hyperparamètres. Les tâches arrêtées continuent de s'afficher sur la SageMaker console.

Le résultat doit être similaire à ce qui suit :


hyperparametertuningjob.sagemaker.aws.amazon.com "xgboost-mnist-hpo" deleted

Remarque : La commande de suppression prend environ 2 minutes pour nettoyer les ressources SageMaker.

L' BatchTransformJob opérateur

Les opérateurs de tâches de transformation par lots concilient les spécifications de tâche de transformation SageMaker par lots que vous avez spécifiées en les lançant dans SageMaker. Pour en savoir plus sur le travail de transformation SageMaker par lots, consultez la documentation de l' SageMaker CreateTransformJob API.

Rubriques

Créer un à BatchTransformJob l'aide d'un fichier YAML
Création d'un graphique BatchTransformJob à l'aide d'un Helm
Liste BatchTransformJobs
Décrivez un BatchTransformJob
Afficher les journaux de BatchTransformJobs
Supprimer un BatchTransformJob

Créer un à BatchTransformJob l'aide d'un fichier YAML

Téléchargez l'exemple de fichier YAML pour la tâche de transformation par lots à l'aide de la commande suivante :


wget https://raw.githubusercontent.com/aws/amazon-sagemaker-operator-for-k8s/master/samples/xgboost-mnist-batchtransform.yaml

Modifiez le fichier xgboost-mnist-batchtransform.yaml pour modifier les paramètres nécessaires afin de les inputdataconfig remplacer par vos données d'entrée et s3OutputPath par vos compartiments Amazon S3 auxquels le rôle SageMaker d'exécution a accès en écriture.
Appliquez le fichier YAML à l'aide de la commande suivante :
```
kubectl apply -f xgboost-mnist-batchtransform.yaml
```

Création d'un graphique BatchTransformJob à l'aide d'un Helm

Vous pouvez utiliser les Charts de Helm pour exécuter des tâches de transformation par lots.

Obtenir le répertoire du programme d'installation de Helm

Clonez le GitHub dépôt pour obtenir le code source à l'aide de la commande suivante :


git clone https://github.com/aws/amazon-sagemaker-operator-for-k8s.git

Configuration du Chart de Helm

Accédez au dossier amazon-sagemaker-operator-for-k8s/hack/charts/batch-transform-jobs/.

Modifiez le values.yaml fichier pour le inputdataconfig remplacer par vos données d'entrée et OutputPath par vos compartiments S3 auxquels le rôle d' SageMaker exécution a accès en écriture.

Créez un BatchTransformJob

Utilisez la commande suivante pour créer une tâche de transformation par lots :


helm install . --generate-name

Le résultat doit être similaire à ce qui suit :


NAME: chart-1574292948
LAST DEPLOYED: Wed Nov 20 23:35:49 2019
NAMESPACE: default
STATUS: deployed
REVISION: 1
TEST SUITE: None
NOTES:
Thanks for installing the sagemaker-k8s-batch-transform-job.

Pour vérifier que le Chart de Helm a bien été créé, exécutez la commande suivante :


helm ls
NAME                    NAMESPACE       REVISION        UPDATED                                 STATUS          CHART                           APP VERSION
chart-1474292948        default         1               2019-11-20 23:35:49.9136092 +0000 UTC   deployed        sagemaker-k8s-batchtransformjob-0.1.0
chart-1474292948        default         1               2019-11-20 23:35:49.9136092 +0000 UTC   deployed        sagemaker-k8s-hyperparametertuningjob-0.1.0
chart-1574292948        default         1               2019-11-20 23:35:49.9136092 +0000 UTC   deployed        sagemaker-k8s-trainingjob-0.1.0
rolebased-1574291698    default         1               2019-11-20 23:14:59.6777082 +0000 UTC   deployed        sagemaker-k8s-operator-0.1.0

Cette commande crée une ressource Kubernetes BatchTransformJob. L'opérateur lance la tâche de transformation proprement dite dans SageMaker et met à jour la ressource BatchTransformJob Kubernetes pour refléter le statut de la tâche dans. SageMaker Vous devez payer des frais pour les SageMaker ressources utilisées pendant la durée de votre travail. Vous ne payez pas de frais une fois votre tâche terminée ou arrêtée.

Remarque : SageMaker ne vous permet pas de mettre à jour une tâche de transformation par lots en cours d'exécution. Vous ne pouvez pas modifier un paramètre et réappliquer le fichier de configuration. Vous devez modifier le nom des métadonnées ou supprimer la tâche existante et en créer une autre. À l'instar des opérateurs de tâche d'entraînement existants tels que TFJob dans Kubeflow, update n'est pas pris en charge.

Liste BatchTransformJobs

Utilisez la commande suivante pour répertorier toutes les tâches créées à l'aide de l'opérateur Kubernetes :


kubectl get batchtransformjob

Le résultat doit être similaire à ce qui suit :


NAME                                STATUS      CREATION-TIME          SAGEMAKER-JOB-NAME
xgboost-mnist-batch-transform       Completed   2019-11-18T03:44:00Z   xgboost-mnist-a88fb19809b511eaac440aa8axgboost

Une tâche de transformation par lots reste répertoriée après son achèvement ou son échec. Vous pouvez supprimer une tâche hyperparametertuningjob de la liste en suivant la procédure Supprimer un BatchTransformJob. Les tâches terminées ou interrompues ne sont pas facturées pour les SageMaker ressources.

Valeurs de statut de transformation par lots

Le champ STATUS peut comporter l'une des valeurs suivantes :

Completed
InProgress
Failed
Stopped
Stopping

Ces statuts proviennent directement de la documentation SageMaker officielle de l'API.

En plus du SageMaker statut officiel, il est possible de STATUS l'êtreSynchronizingK8sJobWithSageMaker. Cela signifie que l'opérateur n'a pas encore traité la tâche.

Décrivez un BatchTransformJob

Vous pouvez obtenir des détails de débogage à l'aide de la commande describe kubectl.


kubectl describe batchtransformjob xgboost-mnist-batch-transform

Le résultat doit être similaire à ce qui suit :


Name:         xgboost-mnist-batch-transform
Namespace:    default
Labels:       <none>
Annotations:  kubectl.kubernetes.io/last-applied-configuration:
                {"apiVersion":"sagemaker.aws.amazon.com/v1","kind":"BatchTransformJob","metadata":{"annotations":{},"name":"xgboost-mnist","namespace"...
API Version:  sagemaker.aws.amazon.com/v1
Kind:         BatchTransformJob
Metadata:
  Creation Timestamp:  2019-11-18T03:44:00Z
  Finalizers:
    sagemaker-operator-finalizer
  Generation:        2
  Resource Version:  21990924
  Self Link:         /apis/sagemaker.aws.amazon.com/v1/namespaces/default/batchtransformjobs/xgboost-mnist
  UID:               a88fb198-09b5-11ea-ac44-0aa8a9UIDNUM
Spec:
  Model Name:  TrainingJob-20190814SMJOb-IKEB
  Region:      us-east-1
  Transform Input:
    Content Type:  text/csv
    Data Source:
      S 3 Data Source:
        S 3 Data Type:  S3Prefix
        S 3 Uri:        s3://my-bucket/mnist_kmeans_example/input
  Transform Job Name:   xgboost-mnist-a88fb19809b511eaac440aa8a9SMJOB
  Transform Output:
    S 3 Output Path:  s3://my-bucket/mnist_kmeans_example/output
  Transform Resources:
    Instance Count:  1
    Instance Type:   ml.m4.xlarge
Status:
  Last Check Time:                2019-11-19T22:50:40Z
  Sage Maker Transform Job Name:  xgboost-mnist-a88fb19809b511eaac440aaSMJOB
  Transform Job Status:           Completed
Events:                           <none>

Afficher les journaux de BatchTransformJobs

Utilisez la commande suivante pour consulter les journaux depuis la tâche de transformation par lots xgboost-mnist :


kubectl smlogs batchtransformjob xgboost-mnist-batch-transform

Supprimer un BatchTransformJob

Utilisez la commande suivante pour arrêter une tâche de transformation par lots dans SageMaker.


kubectl delete batchTransformJob xgboost-mnist-batch-transform

Le résultat doit être similaire à ce qui suit :


batchtransformjob.sagemaker.aws.amazon.com "xgboost-mnist" deleted

Cette commande supprime la tâche de transformation par lots de votre cluster Kubernetes et l'arrête. SageMaker Les tâches qui ont été arrêtées ou terminées ne sont pas facturées pour les SageMaker ressources. Supprimer prend environ 2 minutes pour nettoyer les ressources SageMaker.

Remarque : SageMaker ne supprime pas les tâches de transformation par lots. Les tâches arrêtées continuent de s'afficher sur la SageMaker console.

L' HostingDeployment opérateur

HostingDeployment les opérateurs prennent en charge la création et la suppression d'un point de terminaison, ainsi que la mise à jour d'un point de terminaison existant, pour une inférence en temps réel. L'opérateur de déploiement d'hébergement concilie les spécifications de la tâche de déploiement d'hébergement que vous avez spécifiée en SageMaker créant des modèles, des configurations de points de terminaison et des points de terminaison dans. SageMaker Pour en savoir plus sur l' SageMaker inférence, consultez la documentation de l' SageMaker CreateEndpointAPI.

Rubriques

Configuration d'une HostingDeployment ressource
Créez un HostingDeployment
Liste HostingDeployments
Décrivez un HostingDeployment
Invocation du point de terminaison
Mettre à jour HostingDeployment
Supprimez le HostingDeployment

Configuration d'une HostingDeployment ressource

Téléchargez l'exemple de fichier YAML pour la tâche de déploiement d'hébergement à l'aide de la commande suivante :


wget https://raw.githubusercontent.com/aws/amazon-sagemaker-operator-for-k8s/master/samples/xgboost-mnist-hostingdeployment.yaml

Le fichier xgboost-mnist-hostingdeployment.yaml contient les composants suivants qui peuvent être modifiés selon les besoins :

ProductionVariants. Une variante de production est un ensemble d'instances servant un seul modèle. SageMaker équilibres de charge entre toutes les variantes de production en fonction des poids définis.
Modèles. Un modèle est l'ARN des conteneurs et du rôle d'exécution nécessaire pour servir un modèle. Il nécessite au moins un seul conteneur.
Conteneurs. Un conteneur spécifie le jeu de données et l'image de service. Si vous utilisez votre propre algorithme personnalisé au lieu d'un algorithme fourni par SageMaker, le code d'inférence doit répondre aux SageMaker exigences. Pour plus d'informations, consultez la section Utilisation de vos propres algorithmes avec SageMaker.

Créez un HostingDeployment

Pour créer un HostingDeployment, utilisez kubectl pour appliquer le fichier à l'hosting.yamlaide de la commande suivante :


kubectl apply -f hosting.yaml

SageMaker crée un point de terminaison avec la configuration spécifiée. Les SageMaker ressources utilisées pendant la durée de vie de votre terminal vous sont facturées. Vous ne payez pas de frais une fois votre point de terminaison supprimé.

Le processus de création prend environ 10 minutes.

Liste HostingDeployments

Pour vérifier que le HostingDeployment a été créé, utilisez la commande suivante :


kubectl get hostingdeployments

Le résultat doit être similaire à ce qui suit :


NAME           STATUS     SAGEMAKER-ENDPOINT-NAME
host-xgboost   Creating   host-xgboost-def0e83e0d5f11eaaa450aSMLOGS

HostingDeployment valeurs de statut

Le champ d'état peut avoir l'une des valeurs suivantes :

SynchronizingK8sJobWithSageMaker : l'opérateur se prépare à créer le point de terminaison.
ReconcilingEndpoint : l'opérateur crée, met à jour ou supprime des ressources de point de terminaison. S'il HostingDeployment reste dans cet état, utilisez-le kubectl describe pour en voir la raison dans le Additional champ.
OutOfService : le point de terminaison n'est pas disponible pour recevoir les demandes entrantes.
Creating: CreateEndpointest en cours d'exécution.
Updating: UpdateEndpointou UpdateEndpointWeightsAndCapacitiesest en cours d'exécution.
SystemUpdating : le point de terminaison fait l'objet d'une maintenance et ne peut pas être mis à jour, supprimé ou remis à l'échelle tant qu'il n'est pas terminé. Cette opération de maintenance ne modifie aucune valeur spécifiée par le client, telle que la configuration du VPC, le AWS KMS chiffrement, le modèle, le type d'instance ou le nombre d'instances.
RollingBack : le point de terminaison ne parvient pas à effectuer une augmentation ou une réduction d'échelle, ni à modifier son poids de variante et il est en cours de restauration vers sa configuration précédente. Une fois la restauration terminée, le point de terminaison revient à un statut InService. Ce statut de transition s'applique uniquement à un point de terminaison sur lequel le dimensionnement automatique est activé et qui subit des modifications de pondération ou de capacité dans le cadre d'un UpdateEndpointWeightsAndCapacitiesappel ou lorsque l'UpdateEndpointWeightsAndCapacitiesopération est appelée explicitement.
InService : le point de terminaison est disponible pour traiter les demandes entrantes.
Deleting: DeleteEndpointest en cours d'exécution.
Failed : le point de terminaison n'a pas pu être créé, mis à jour ou remis à l'échelle. Utilisation DescribeEndpoint: FailureReason pour obtenir des informations sur l'échec. DeleteEndpointest la seule opération qui peut être effectuée sur un terminal défaillant.

Décrivez un HostingDeployment

Vous pouvez obtenir des détails de débogage à l'aide de la commande describe kubectl.


kubectl describe hostingdeployment

Le résultat doit être similaire à ce qui suit :


Name:         host-xgboost
Namespace:    default
Labels:       <none>
Annotations:  kubectl.kubernetes.io/last-applied-configuration:
                {"apiVersion":"sagemaker.aws.amazon.com/v1","kind":"HostingDeployment","metadata":{"annotations":{},"name":"host-xgboost","namespace":"def..."
API Version:  sagemaker.aws.amazon.com/v1
Kind:         HostingDeployment
Metadata:
  Creation Timestamp:  2019-11-22T19:40:00Z
  Finalizers:
    sagemaker-operator-finalizer
  Generation:        1
  Resource Version:  4258134
  Self Link:         /apis/sagemaker.aws.amazon.com/v1/namespaces/default/hostingdeployments/host-xgboost
  UID:               def0e83e-0d5f-11ea-aa45-0a3507uiduid
Spec:
  Containers:
    Container Hostname:  xgboost
    Image:               123456789012.dkr.ecr.us-east-2.amazonaws.com/xgboost:latest
    Model Data URL:      s3://my-bucket/inference/xgboost-mnist/model.tar.gz
  Models:
    Containers:
      xgboost
    Execution Role Arn:  arn:aws:iam::123456789012:role/service-role/AmazonSageMaker-ExecutionRole
    Name:                xgboost-model
    Primary Container:   xgboost
  Production Variants:
    Initial Instance Count:  1
    Instance Type:           ml.c5.large
    Model Name:              xgboost-model
    Variant Name:            all-traffic
  Region:                    us-east-2
Status:
  Creation Time:         2019-11-22T19:40:04Z
  Endpoint Arn:          arn:aws:sagemaker:us-east-2:123456789012:endpoint/host-xgboost-def0e83e0d5f11eaaaexample
  Endpoint Config Name:  host-xgboost-1-def0e83e0d5f11e-e08f6c510d5f11eaaa450aexample
  Endpoint Name:         host-xgboost-def0e83e0d5f11eaaa450a350733ba06
  Endpoint Status:       Creating
  Endpoint URL:          https://runtime.sagemaker.us-east-2.amazonaws.com/endpoints/host-xgboost-def0e83e0d5f11eaaaexample/invocations
  Last Check Time:       2019-11-22T19:43:57Z
  Last Modified Time:    2019-11-22T19:40:04Z
  Model Names:
    Name:   xgboost-model
    Value:  xgboost-model-1-def0e83e0d5f11-df5cc9fd0d5f11eaaa450aexample
Events:     <none>

Le champ de statut fournit plus d'informations à l'aide des champs suivants :

Additional : informations supplémentaires sur l'état du déploiement d'hébergement. Ce champ est facultatif et n'est renseigné qu'en cas d'erreur.
Creation Time: Lorsque le point de terminaison a été créé dans SageMaker.
Endpoint ARN: ARN du SageMaker point de terminaison.
Endpoint Config Name: SageMaker nom de la configuration du point de terminaison.
Endpoint Name: SageMaker nom du point de terminaison.
Endpoint Status : état du point de terminaison.
Endpoint URL : URL HTTPS qui peut être utilisée pour accéder au point de terminaison. Pour plus d'informations, voir Déployer un modèle sur les services SageMaker d'hébergement.
FailureReason : si une commande de création, de mise à jour ou de suppression échoue, la cause est indiquée ici.
Last Check Time : dernière fois que l'opérateur a vérifié l'état du point de terminaison.
Last Modified Time : date et heure de la dernière modification du point de terminaison.
Model Names: une paire clé-valeur entre les noms de HostingDeployment modèles et les noms de SageMaker modèles.

Invocation du point de terminaison

Une fois que l'état du point de terminaison est atteintInService, vous pouvez appeler le point de terminaison de deux manières : en utilisant la AWS CLI, qui effectue l'authentification et la signature des demandes d'URL, ou en utilisant un client HTTP tel que cURL. Si vous utilisez votre propre client, vous devez effectuer vous-même la signature et l'authentification de l'URL AWS v4.

Pour appeler le point de terminaison à l'aide de la AWS CLI, exécutez la commande suivante. Assurez-vous de remplacer la région et le nom du point de terminaison par la région et le nom du point de terminaison de votre point de SageMaker terminaison. Ces informations peuvent être obtenues à partir du résultat de kubectl describe.


# Invoke the endpoint with mock input data.
aws sagemaker-runtime invoke-endpoint \
  --region us-east-2 \
  --endpoint-name <endpoint name> \
  --body $(seq 784 | xargs echo | sed 's/ /,/g') \
  >(cat) \
  --content-type text/csv > /dev/null

Par exemple, si votre région est us-east-2 et votre nom de configuration de point de terminaison est host-xgboost-f56b6b280d7511ea824b129926example, la commande suivante invoquerait le point de terminaison :


aws sagemaker-runtime invoke-endpoint \
  --region us-east-2 \
  --endpoint-name host-xgboost-f56b6b280d7511ea824b1299example \
  --body $(seq 784 | xargs echo | sed 's/ /,/g') \
  >(cat) \
  --content-type text/csv > /dev/null
4.95847082138

Ici, 4.95847082138 est la prédiction du modèle pour les données simulées.

Mettre à jour HostingDeployment

Une fois qu'un HostingDeployment a un statut deInService, il peut être mis à jour. La mise en service peut prendre environ 10 minutes. HostingDeployment Utilisez la commande suivante pour vérifier que l'état est InService :
```
kubectl get hostingdeployments
```

Ils HostingDeployment peuvent être mis à jour avant que le statut ne le soitInService. L'opérateur attend que le point de SageMaker terminaison soit disponible InService avant d'appliquer la mise à jour.

Pour appliquer une mise à jour, modifiez le fichier hosting.yaml. Par exemple, remplacez le champ initialInstanceCount de 1 à 2 comme suit :


apiVersion: sagemaker.aws.amazon.com/v1
kind: HostingDeployment
metadata:
  name: host-xgboost
spec:
    region: us-east-2
    productionVariants:
        - variantName: all-traffic
          modelName: xgboost-model
          initialInstanceCount: 2
          instanceType: ml.c5.large
    models:
        - name: xgboost-model
          executionRoleArn: arn:aws:iam::123456789012:role/service-role/AmazonSageMaker-ExecutionRole
          primaryContainer: xgboost
          containers:
            - xgboost
    containers:
        - containerHostname: xgboost
          modelDataUrl: s3://my-bucket/inference/xgboost-mnist/model.tar.gz
          image: 123456789012.dkr.ecr.us-east-2.amazonaws.com/xgboost:latest

Enregistrez le fichier, puis utilisez kubectl pour appliquer votre mise à jour comme suit. Vous devez voir l'état passer de InService à ReconcilingEndpoint, puis à Updating.


$ kubectl apply -f hosting.yaml
hostingdeployment.sagemaker.aws.amazon.com/host-xgboost configured

$ kubectl get hostingdeployments
NAME           STATUS                SAGEMAKER-ENDPOINT-NAME
host-xgboost   ReconcilingEndpoint   host-xgboost-def0e83e0d5f11eaaa450a350abcdef

$ kubectl get hostingdeployments
NAME           STATUS     SAGEMAKER-ENDPOINT-NAME
host-xgboost   Updating   host-xgboost-def0e83e0d5f11eaaa450a3507abcdef

SageMaker déploie un nouvel ensemble d'instances avec vos modèles, modifie le trafic pour utiliser les nouvelles instances et vide les anciennes instances. Dès que ce processus commence, l'état devient Updating. Une fois la mise à jour terminée, votre point de terminaison devient InService. Ce processus prend environ 10 minutes.

Supprimez le HostingDeployment

kubectlÀ utiliser pour supprimer un à l' HostingDeployment aide de la commande suivante :
```
kubectl delete hostingdeployments host-xgboost
```
Le résultat doit être similaire à ce qui suit :
```
hostingdeployment.sagemaker.aws.amazon.com "host-xgboost" deleted
```
Pour vérifier que le déploiement d'hébergement a été supprimé, utilisez la commande suivante :
```
kubectl get hostingdeployments
No resources found.
```

Les points de terminaison qui ont été supprimés ne sont pas facturés pour les SageMaker ressources.

L' ProcessingJob opérateur

ProcessingJob les opérateurs sont utilisés pour lancer les tâches SageMaker de traitement Amazon. Pour plus d'informations sur le SageMaker traitement des tâches, consultez CreateProcessingJob.

Rubriques

Créez un à ProcessingJob l'aide d'un fichier YAML
Liste ProcessingJobs
Décrivez un ProcessingJob
Supprimer un ProcessingJob

Créez un à ProcessingJob l'aide d'un fichier YAML

Pour créer une tâche de SageMaker traitement Amazon à l'aide d'un fichier YAML, procédez comme suit :

Téléchargez le script de pré-traitement kmeans_preprocessing.py.


wget https://raw.githubusercontent.com/aws/amazon-sagemaker-operator-for-k8s/master/samples/kmeans_preprocessing.py

Dans l'un de vos compartiments Amazon Simple Storage Service (Amazon S3), créez un dossier mnist_kmeans_example/processing_code et téléchargez-y le script.

Téléchargez le fichier kmeans-mnist-processingjob.yaml.


wget https://raw.githubusercontent.com/aws/amazon-sagemaker-operator-for-k8s/master/samples/kmeans-mnist-processingjob.yaml

Modifiez le fichier YAML pour spécifier votre sagemaker-execution-role et remplacez toutes les instances de my-bucket par votre compartiment S3.


...
metadata:
  name: kmeans-mnist-processing
...
  roleArn: arn:aws:iam::<acct-id>:role/service-role/<sagemaker-execution-role>
  ...
  processingOutputConfig:
    outputs:
      ...
          s3Output:
            s3Uri: s3://<my-bucket>/mnist_kmeans_example/output/
  ...
  processingInputs:
    ...
        s3Input:
          s3Uri: s3://<my-bucket>/mnist_kmeans_example/processing_code/kmeans_preprocessing.py

Ils sagemaker-execution-role doivent disposer d'autorisations pour SageMaker accéder à votre compartiment S3, à Amazon CloudWatch et à d'autres services en votre nom. Pour plus d'informations sur la création d'un rôle d'exécution, consultez la section SageMakerRôles.

Appliquez le fichier YAML à l'aide de l'une des commandes suivantes.

Pour l'installation à portée de cluster :
```
kubectl apply -f kmeans-mnist-processingjob.yaml
```
Pour l'installation à portée de l'espace de noms :
```
kubectl apply -f kmeans-mnist-processingjob.yaml -n <NAMESPACE>
```

Liste ProcessingJobs

Utilisez l'une des commandes suivantes pour répertorier toutes les tâches créées à l'aide de l' ProcessingJob opérateur. SAGEMAKER-JOB-NAME provient de la metadata section du fichier YAML.

Pour l'installation à portée de cluster :


kubectl get ProcessingJob kmeans-mnist-processing

Pour l'installation à portée de l'espace de noms :


kubectl get ProcessingJob -n <NAMESPACE> kmeans-mnist-processing

Votre sortie doit ressembler à ce qui suit :


NAME                    STATUS     CREATION-TIME        SAGEMAKER-JOB-NAME
kmeans-mnist-processing InProgress 2020-09-22T21:13:25Z kmeans-mnist-processing-7410ed52fd1811eab19a165ae9f9e385

Le résultat répertorie toutes les tâches, quel que soit leur statut. Pour supprimer une tâche de la liste, veuillez consulter Delete a Processing Job.

ProcessingJob État

SynchronizingK8sJobWithSageMaker – La tâche est d'abord envoyée au cluster. L'opérateur a reçu la demande et se prépare à créer la tâche de traitement.
Reconciling – L'opérateur est en train d'initialiser ou de récupérer des erreurs transitoires, avec d'autres. Si la tâche de traitement reste dans cet état, utilisez la commande kubectl describe pour connaître la raison dans le champ Additional.
InProgress | Completed | Failed | Stopping | Stopped— État de la tâche SageMaker de traitement. Pour plus d'informations, consultez DescribeProcessingJob.
Error – L'opérateur ne peut pas récupérer via un rapprochement.

Les tâches terminées, arrêtées ou échouées n'entraînent pas de frais supplémentaires pour les SageMaker ressources.

Décrivez un ProcessingJob

Utilisez l'une des commandes suivantes pour obtenir plus de détails sur une tâche de traitement. Ces commandes sont généralement utilisées pour déboguer un problème ou vérifier les paramètres d'une tâche de traitement.

Pour l'installation à portée de cluster :


kubectl describe processingjob kmeans-mnist-processing

Pour l'installation à portée de l'espace de noms :


kubectl describe processingjob kmeans-mnist-processing -n <NAMESPACE>

Le résultat de votre tâche de traitement doit ressembler à ce qui suit :


$ kubectl describe ProcessingJob kmeans-mnist-processing
Name:         kmeans-mnist-processing
Namespace:    default
Labels:       <none>
Annotations:  kubectl.kubernetes.io/last-applied-configuration:
                {"apiVersion":"sagemaker.aws.amazon.com/v1","kind":"ProcessingJob","metadata":{"annotations":{},"name":"kmeans-mnist-processing",...
API Version:  sagemaker.aws.amazon.com/v1
Kind:         ProcessingJob
Metadata:
  Creation Timestamp:  2020-09-22T21:13:25Z
  Finalizers:
    sagemaker-operator-finalizer
  Generation:        2
  Resource Version:  21746658
  Self Link:         /apis/sagemaker.aws.amazon.com/v1/namespaces/default/processingjobs/kmeans-mnist-processing
  UID:               7410ed52-fd18-11ea-b19a-165ae9f9e385
Spec:
  App Specification:
    Container Entrypoint:
      python
      /opt/ml/processing/code/kmeans_preprocessing.py
    Image Uri:  763104351884.dkr.ecr.us-west-2.amazonaws.com/pytorch-training:1.5.0-cpu-py36-ubuntu16.04
  Environment:
    Name:   MYVAR
    Value:  my_value
    Name:   MYVAR2
    Value:  my_value2
  Network Config:
  Processing Inputs:
    Input Name:  mnist_tar
    s3Input:
      Local Path:   /opt/ml/processing/input
      s3DataType:   S3Prefix
      s3InputMode:  File
      s3Uri:        s3://<s3bucket>-us-west-2/algorithms/kmeans/mnist/mnist.pkl.gz
    Input Name:     source_code
    s3Input:
      Local Path:   /opt/ml/processing/code
      s3DataType:   S3Prefix
      s3InputMode:  File
      s3Uri:        s3://<s3bucket>/mnist_kmeans_example/processing_code/kmeans_preprocessing.py
  Processing Output Config:
    Outputs:
      Output Name:  train_data
      s3Output:
        Local Path:    /opt/ml/processing/output_train/
        s3UploadMode:  EndOfJob
        s3Uri:         s3://<s3bucket>/mnist_kmeans_example/output/
      Output Name:     test_data
      s3Output:
        Local Path:    /opt/ml/processing/output_test/
        s3UploadMode:  EndOfJob
        s3Uri:         s3://<s3bucket>/mnist_kmeans_example/output/
      Output Name:     valid_data
      s3Output:
        Local Path:    /opt/ml/processing/output_valid/
        s3UploadMode:  EndOfJob
        s3Uri:         s3://<s3bucket>/mnist_kmeans_example/output/
  Processing Resources:
    Cluster Config:
      Instance Count:     1
      Instance Type:      ml.m5.xlarge
      Volume Size In GB:  20
  Region:                 us-west-2
  Role Arn:               arn:aws:iam::<acct-id>:role/m-sagemaker-role
  Stopping Condition:
    Max Runtime In Seconds:  1800
  Tags:
    Key:    tagKey
    Value:  tagValue
Status:
  Cloud Watch Log URL:             https://us-west-2.console.aws.amazon.com/cloudwatch/home?region=us-west-2#logStream:group=/aws/sagemaker/ProcessingJobs;prefix=kmeans-mnist-processing-7410ed52fd1811eab19a165ae9f9e385;streamFilter=typeLogStreamPrefix
  Last Check Time:                 2020-09-22T21:14:29Z
  Processing Job Status:           InProgress
  Sage Maker Processing Job Name:  kmeans-mnist-processing-7410ed52fd1811eab19a165ae9f9e385
Events:                            <none>

Supprimer un ProcessingJob

Lorsque vous supprimez une tâche de traitement, la tâche de SageMaker traitement est supprimée de Kubernetes, mais elle n'est pas supprimée de. SageMaker Si le statut de la tâche SageMaker est InProgress le suivant, la tâche est arrêtée. Les tâches de traitement qui sont arrêtées n'entraînent aucun frais de SageMaker ressources. Utilisez l'une des commandes suivantes pour supprimer une tâche de traitement.

Pour l'installation à portée de cluster :


kubectl delete processingjob kmeans-mnist-processing

Pour l'installation à portée de l'espace de noms :


kubectl delete processingjob kmeans-mnist-processing -n <NAMESPACE>

Le résultat de votre tâche de traitement doit ressembler à ce qui suit :


processingjob.sagemaker.aws.amazon.com "kmeans-mnist-processing" deleted

Note

SageMaker ne supprime pas la tâche de traitement. Les tâches arrêtées continuent de s'afficher dans la SageMaker console. La delete commande prend quelques minutes pour nettoyer les ressources de SageMaker.

HostingAutoscalingPolicy (HAP) Opérateur

L'opérateur HostingAutoscalingPolicy (HAP) prend une liste d'identifiants de ressources en entrée et applique la même politique à chacun d'eux. Chaque ID de ressource est une combinaison d'un nom de point de terminaison et d'un nom de variante. L'opérateur HAP effectue deux étapes : il enregistre les ID de ressource, puis applique la politique de mise à l'échelle à chaque ID de ressource.Delete annule les deux actions. Vous pouvez appliquer le HAP à un point de SageMaker terminaison existant ou vous pouvez créer un nouveau point de SageMaker terminaison à l'aide de l'HostingDeployment opérateur. Pour en savoir plus sur la mise à SageMaker l'échelle automatique, consultez la documentation relative à la politique de mise à l'échelle automatique des applications.

Note

Dans vos commandes kubectl, vous pouvez utiliser le format court, hap, à la place de hostingautoscalingpolicy.

Rubriques

Créez un à HostingAutoscalingPolicy l'aide d'un fichier YAML
Liste HostingAutoscalingPolicies
Décrivez un HostingAutoscalingPolicy
Mettre à jour un HostingAutoscalingPolicy
Supprimer un HostingAutoscalingPolicy
Mettre à jour ou supprimer un point de terminaison doté d'un HostingAutoscalingPolicy

Créez un à HostingAutoscalingPolicy l'aide d'un fichier YAML

Utilisez un fichier YAML pour créer un HostingAutoscalingPolicy (HAP) qui applique une métrique prédéfinie ou personnalisée à un ou plusieurs SageMaker points de terminaison.

Amazon a SageMaker besoin de valeurs spécifiques pour appliquer l'autoscaling à votre variante. Si ces valeurs ne sont pas spécifiées dans la spécification YAML, l'opérateur HAP applique les valeurs par défaut suivantes.


# Do not change
Namespace                    = "sagemaker"
# Do not change
ScalableDimension            = "sagemaker:variant:DesiredInstanceCount"
# Only one supported
PolicyType                   = "TargetTrackingScaling"
# This is the default policy name but can be changed to apply a custom policy
DefaultAutoscalingPolicyName = "SageMakerEndpointInvocationScalingPolicy"

Utilisez les exemples suivants pour créer une HAP qui applique une métrique prédéfinie ou personnalisée à un ou plusieurs points de terminaison.

Exemple 1 : Application d'une métrique prédéfinie à une variante de point de terminaison unique

Téléchargez l'exemple de fichier YAML pour une métrique prédéfinie à l'aide de la commande suivante :


wget https://raw.githubusercontent.com/aws/amazon-sagemaker-operator-for-k8s/master/samples/hap-predefined-metric.yaml

Modifiez le fichier YAML pour spécifier votre endpointName, votre variantName et votre Region.
Utilisez l'une des commandes suivantes pour appliquer une métrique prédéfinie à un seul ID de ressource (combinaison de nom de point de terminaison et de nom de variante).

Pour l'installation à portée de cluster :
```
kubectl apply -f hap-predefined-metric.yaml
```
Pour l'installation à portée de l'espace de noms :
```
kubectl apply -f hap-predefined-metric.yaml -n <NAMESPACE>
```

Exemple 2 : Application d'une métrique personnalisée à une variante de point de terminaison unique

Téléchargez l'exemple de fichier YAML pour une métrique personnalisée à l'aide de la commande suivante :


wget https://raw.githubusercontent.com/aws/amazon-sagemaker-operator-for-k8s/master/samples/hap-custom-metric.yaml

Modifiez le fichier YAML pour spécifier votre endpointName, votre variantName et votre Region.
Utilisez l'une des commandes suivantes pour appliquer une métrique personnalisée à un seul ID de ressource (combinaison de nom de point de terminaison et de nom de variante) à la place de la SageMakerVariantInvocationsPerInstance recommandée.

Note
Amazon SageMaker ne vérifie pas la validité de vos spécifications YAML.

Pour l'installation à portée de cluster :
```
kubectl apply -f hap-custom-metric.yaml
```
Pour l'installation à portée de l'espace de noms :
```
kubectl apply -f hap-custom-metric.yaml -n <NAMESPACE>
```

Exemple 3 : Application d'une politique de mise à l'échelle à plusieurs points de terminaison et variantes

Vous pouvez utiliser l'opérateur HAP pour appliquer la même politique de mise à l'échelle à plusieurs ID de ressources. Une demande scaling_policy distincte est créée pour chaque ID de ressource (combinaison de nom de point de terminaison et de nom de variante).

Téléchargez l'exemple de fichier YAML pour une métrique prédéfinie à l'aide de la commande suivante :


wget https://raw.githubusercontent.com/aws/amazon-sagemaker-operator-for-k8s/master/samples/hap-predefined-metric.yaml

Modifiez le fichier YAML pour spécifier votre Region et plusieurs valeurs endpointName et variantName.
Utilisez l'une des commandes suivantes pour appliquer une métrique prédéfinie à plusieurs ID de ressources (combinaisons de nom de point de terminaison et de nom de variante).

Pour l'installation à portée de cluster :
```
kubectl apply -f hap-predefined-metric.yaml
```
Pour l'installation à portée de l'espace de noms :
```
kubectl apply -f hap-predefined-metric.yaml -n <NAMESPACE>
```

Considérations HostingAutoscalingPolicies relatives à plusieurs terminaux et variantes

Les considérations suivantes s'appliquent lorsque vous utilisez plusieurs ID de ressources :

Si vous appliquez une politique unique sur plusieurs ID de ressources, un PolicyARN est créé pour chaque ID de ressource. Cinq points de terminaison ont cinq PolicyARN. Lorsque vous exécutez la commande describe sur la politique, les réponses apparaissent comme une tâche et incluent un statut de tâche unique.
Si vous appliquez une métrique personnalisée à plusieurs ID de ressource, la même dimension ou valeur est utilisée pour toutes les valeurs (variantes) d'ID de ressource. Par exemple, si vous appliquez une métrique client pour les instances 1 à 5 et que la dimension de variante de point de terminaison est mappée à la variante 1, lorsque la variante 1 dépasse les métriques, tous les points de terminaison sont augmentés ou réduits.
L'opérateur HAP prend en charge la mise à jour de la liste des ID de ressources. Si vous modifiez, ajoutez ou supprimez des ID de ressource à la spécification, la politique de scalabilité automatique est supprimée de la liste précédente de variantes et appliquée aux combinaisons d'ID de ressource récemment spécifiées. Utilisez la commande describe pour répertorier les ID de ressources auxquels la politique est actuellement appliquée.

Liste HostingAutoscalingPolicies

Utilisez l'une des commandes suivantes pour répertorier tous les HostingAutoscalingPolicies (HAP) créés à l'aide de l'opérateur HAP.

Pour l'installation à portée de cluster :


kubectl get hap

Pour l'installation à portée de l'espace de noms :


kubectl get hap -n <NAMESPACE>

Votre sortie doit ressembler à ce qui suit :


NAME             STATUS   CREATION-TIME
hap-predefined   Created  2021-07-13T21:32:21Z

Utilisez la commande suivante pour vérifier l'état de votre HostingAutoscalingPolicy (HAP).


kubectl get hap <job-name>

L'une des valeurs suivantes est renvoyée :

Reconciling – Certains types d'erreurs affichent l'état Reconciling au lieu de Error. Certains exemples sont des erreurs côté serveur et des points de terminaison à l'état Creating ou Updating. Vérifiez le champ Additional dans les journaux d'état ou d'opérateur pour plus d'informations.
Created
Error

Pour afficher le point de terminaison de scalabilité automatique auquel vous avez appliqué la politique

Ouvrez la SageMaker console Amazon à l'adresse https://console.aws.amazon.com/sagemaker/.
Dans le panneau latéral gauche, développez Inférence (Inférence).
Choisissez Endpoints (Points de terminaison).
Sélectionnez le nom du point de terminaison qui vous intéresse.
Faites défiler jusqu'à la section Endpoint runtime settings (Paramètres d'exécution du point de terminaison).

Décrivez un HostingAutoscalingPolicy

Utilisez la commande suivante pour obtenir plus de détails sur a HostingAutoscalingPolicy (HAP). Ces commandes sont généralement utilisées pour déboguer un problème ou vérifier les ID de ressource (combinaisons de noms de point de terminaison et de noms de variante) d'un HAP.


kubectl describe hap <job-name>

Mettre à jour un HostingAutoscalingPolicy

L'opérateur HostingAutoscalingPolicy (HAP) prend en charge les mises à jour. Vous pouvez modifier votre spécification YAML afin de modifier les valeurs, puis appliquer à nouveau la politique. L'opérateur HAP supprime la politique existante et applique la nouvelle.

Supprimer un HostingAutoscalingPolicy

Utilisez l'une des commandes suivantes pour supprimer une politique HostingAutoscalingPolicy (HAP).

Pour l'installation à portée de cluster :


kubectl delete hap hap-predefined

Pour l'installation à portée de l'espace de noms :


kubectl delete hap hap-predefined -n <NAMESPACE>

Cette commande supprime la politique de mise à l'échelle et annule l'enregistrement de la cible de mise à l'échelle de Kubernetes. Cette commande renvoie le résultat suivant :


hostingautoscalingpolicies.sagemaker.aws.amazon.com "hap-predefined" deleted

Mettre à jour ou supprimer un point de terminaison doté d'un HostingAutoscalingPolicy

Pour mettre à jour un terminal doté d'un HostingAutoscalingPolicy (HAP), utilisez la kubectl delete commande pour supprimer le HAP, mettre à jour le point de terminaison, puis réappliquer le HAP.

Pour supprimer un point de terminaison qui possède une HAP, utilisez la commande kubectl delete pour supprimer l'HAP avant de supprimer le point de terminaison.

Avertissement JavaScript est désactivé ou n'est pas disponible dans votre navigateur.

Pour que vous puissiez utiliser la documentation AWS, Javascript doit être activé. Vous trouverez des instructions sur les pages d'aide de votre navigateur.

Conventions de rédaction

Anciens SageMaker opérateurs pour Kubernetes

Migrer vers la dernière version d'Operator