Solucionar problemas em pipelines de inferência - Amazon SageMaker

As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.

Solucionar problemas em pipelines de inferência

Para solucionar problemas do pipeline de inferência, use CloudWatch registros e mensagens de erro. Se você estiver usando imagens personalizadas do Docker em um pipeline que inclui algoritmos SageMaker integrados da Amazon, você também poderá encontrar problemas de permissões. Para conceder as permissões necessárias, crie uma política do Amazon Elastic Container Registry (AmazonECR).

Solucionar problemas de ECR permissões da Amazon para pipelines de inferência

Quando você usa imagens personalizadas do Docker em um pipeline que inclui algoritmos SageMaker integrados, você precisa de uma ECRpolítica da Amazon. A política permite que seu ECR repositório da Amazon conceda permissão para SageMaker extrair a imagem. A política deve adicionar as seguintes permissões:

{ "Version": "2008-10-17", "Statement": [ { "Sid": "allowSageMakerToPull", "Effect": "Allow", "Principal": { "Service": "sagemaker.amazonaws.com" }, "Action": [ "ecr:GetDownloadUrlForLayer", "ecr:BatchGetImage", "ecr:BatchCheckLayerAvailability" ] } ] }

Use CloudWatch registros para solucionar problemas de pipelines de SageMaker inferência

SageMaker publica os registros do contêiner para endpoints que implantam um pipeline de inferência CloudWatch na Amazon no seguinte caminho para cada contêiner.

/aws/sagemaker/Endpoints/{EndpointName}/{Variant}/{InstanceId}/{ContainerHostname}

Por exemplo, os logs desse endpoint são publicados nos seguintes grupos de logs e streams:

EndpointName: MyInferencePipelinesEndpoint Variant: MyInferencePipelinesVariant InstanceId: i-0179208609ff7e488 ContainerHostname: MyContainerName1 and MyContainerName2
logGroup: /aws/sagemaker/Endpoints/MyInferencePipelinesEndpoint logStream: MyInferencePipelinesVariant/i-0179208609ff7e488/MyContainerName1 logStream: MyInferencePipelinesVariant/i-0179208609ff7e488/MyContainerName2

Stream de log é uma sequência de eventos de log que compartilham a mesma origem. Cada fonte separada de registros CloudWatch forma um fluxo de registros separado. Um grupo de logs é um grupo de fluxos de log que compartilham as mesmas configurações de retenção, monitoramento e controle de acesso.

Para ver os grupos de log e streams
  1. Abra o CloudWatch console em https://console.aws.amazon.com/cloudwatch/.

  2. Na página de navegação, escolha Logs.

  3. In Log Groups (Grupos de log) filtre em MyInferencePipelinesEndpoint:

    Os grupos de CloudWatch registros foram filtrados para o endpoint do pipeline de inferência.
  4. Para ver os fluxos de registros, na página Grupos de CloudWatch registros, escolha e, em seguidaMyInferencePipelinesEndpoint, Pesquisar grupo de registros.

    O fluxo de CloudWatch log do pipeline de inferência.

Para obter uma lista dos registros SageMaker publicados, consulteLogs e métricas de pipeline de inferência.

Use mensagens de erro para solucionar problemas com pipelines de inferência.

As mensagens de erro do pipeline de inferência indicam quais contêineres falharam.

Se ocorrer um erro ao SageMaker invocar um endpoint, o serviço retornará um ModelError (código de erro 424), que indica qual contêiner falhou. Se a carga útil da solicitação (a resposta do contêiner anterior) exceder o limite de 5 MB, SageMaker fornecerá uma mensagem de erro detalhada, como:

Resposta recebida de MyContainerName 1 com o código de status 200. No entanto, a carga útil da solicitação de MyContainerName 1 a MyContainerName 2 é de 6000000 bytes, o que excedeu o limite máximo de 5 MB.

Se um contêiner falhar na verificação de integridade do ping ao SageMaker criar um endpoint, ele retornará a ClientError e indicará todos os contêineres que falharam na verificação de ping na última verificação de integridade.