Surveiller Amazon SageMaker - Amazon SageMaker

Surveiller Amazon SageMaker

La surveillance constitue une part importante de la gestion de la fiabilité, de la disponibilité et de la performance de SageMaker et de vos autres solutions AWS. AWS fournit les outils de surveillance suivants pour surveiller SageMaker, signaler les problèmes et prendre des mesures automatiques, le cas échéant :

  • Amazon CloudWatch surveille vos ressources AWS et les applications que vous exécutez sur AWS en temps réel. Vous pouvez collecter et suivre les métriques, créer des tableaux de bord personnalisés, et définir des alarmes qui vous informent ou prennent des mesures lorsqu'une métrique spécifique atteint un seuil que vous spécifiez. Par exemple, vous pouvez faire en sorte que CloudWatch assure le suivi de l'utilisation du processeur ou d'autres métriques de vos instances Amazon EC2 et démarre automatiquement de nouvelles instances lorsque cela est nécessaire. Pour plus d'informations, consultez le Guide de l'utilisateur Amazon CloudWatch.

  • Amazon CloudWatch logs permet de surveiller, stocker et accéder à vos fichiers journaux à partir d'instances EC2, de la AWS CloudTrail et d'autres sources. CloudWatch Logs peut surveiller les informations contenues dans les fichiers journaux et vous avertir lorsque certains seuils sont atteints. Vous pouvez également archiver vos données de journaux dans une solution de stockage hautement durable. Pour plus d'informations, consultez le Guide de l'utilisateur Amazon CloudWatch Logs.

  • AWS CloudTrail capture les appels d'API et les événements associés créés par ou au nom de votre compte AWS et envoie les fichiers journaux à un compartiment Amazon S3 que vous spécifiez. Vous pouvez identifier les utilisateurs et les comptes qui ont appelé AWS, l'adresse IP source à partir de laquelle les appels ont été émis, ainsi que le moment où les appels ont eu lieu. Pour de plus amples informations, veuillez consulter le Guide de l'utilisateur AWS CloudTrail.

  • CloudWatch Events fournit un flux d'événements système en quasi temps réel, qui décrit les modifications apportées aux ressources AWS. Créer des règles CloudWatch Events pour réagir à un changement d'état dans une tâche d'entraînement SageMaker, de réglage d'hyperparamètre ou de transformation par lots