Motivos de falha na execução - AWS HealthOmics

As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.

Motivos de falha na execução

Se uma execução falhar, use a operação GetRunda API para recuperar o motivo da falha.

Analise o motivo da falha para ajudá-lo a solucionar o motivo da falha na execução. A tabela a seguir lista cada motivo da falha junto com uma descrição do erro.

Motivo da falha Descrição do erro

FALHA EM ASSUMIR A FUNÇÃO

HealthOmics não tem permissão para assumir a função. Especifique o HealthOmics diretor na relação de confiança da função.

NÃO É POSSÍVEL INICIAR O CONTÊINER_ERROR

Não é possível iniciar a tarefa do fluxo de trabalho:name, id: ID contêiner usando a imagem:image name. Verifique se a imagem é válida e tente novamente.

NÃO É POSSÍVEL INICIAR O CONTÊINER_SIZE_ERROR

Não é possível iniciar a tarefa do fluxo de trabalho:name, id: ID contêiner usando a imagem:image name. Verifique se o tamanho da imagem é menor que 25 GB e tente novamente.

ERRO_PERMISSÃO_ECR

HealthOmics não tem permissão para acessar o URI da imagem.

Confirme se o repositório privado do Amazon ECR existe e concedeu acesso ao responsável pelo HealthOmics serviço.

FALHA NA EXPORTAÇÃO

A exportação falhou. Verifique se o bucket de saída existe e se a função de execução tem permissão de gravação no bucket.

SISTEMA DE ARQUIVOS FORA DO ESPAÇO

O sistema de arquivos não tem espaço suficiente. Aumente o tamanho do sistema de arquivos e execute novamente.

FALHA NA VERIFICAÇÃO DA IMAGEM

Não foi possível verificar a imagemimage name. Para corrigir o problema, tente extrair a imagem e enviá-la novamente para o repositório ECR.

FALHA NA IMPORTAÇÃO

A importação falhou. Verifique se o arquivo de entrada existe e se a função de execução pode acessar a entrada.

INACTIVE_OMICS_STORAGE_RESOURCE

O URI HealthOmics de armazenamento não está no estado ATIVO. Ative o conjunto de leitura e tente novamente. Para saber mais sobre como ativar conjuntos de leitura, consulteAtivando conjuntos de leitura em HealthOmics.

URI DE ENTRADA NÃO ENCONTRADO O URI fornecido não existe:uri. Verifique se o caminho do URI existe e confirme se a função pode acessar o objeto.

FALHA NA RESERVA DA INSTÂNCIA

Não há capacidade de instância suficiente para concluir a execução do fluxo de trabalho. Aguarde e tente executar o fluxo de trabalho novamente.

URI DE ECR_IMAGE_URI INVÁLIDO

A estrutura do URI da imagem do Amazon ECR não é válida. Forneça um URI válido e tente novamente.

VALOR_DO_TASK_RESOURCE_INVÁLIDO

A GPU, a CPU ou a memória solicitadas são muito altas para a capacidade computacional disponível ou são menores que o valor mínimo de 1 para a tarefa. ID

ENTRADA_URI_INVÁLIDA

A estrutura do URI não é válidauri. Verifique a estrutura do URI e tente novamente.
RECURSO_DE_ENTRADA_MODIFICADO

O URI fornecido uri foi modificado após o início da execução. Tente executar novamente.

ERRO DE FALTA DE MEMÓRIA

A tarefa do fluxo de trabalho ID ficou sem memória. Aumente o valor da memória na definição do fluxo de trabalho e tente executar novamente.

FALHA NA EXECUÇÃO DA TAREFA

A execução falhou porque a tarefa falhou. Para depurar a falha da tarefa, use a operação da GetRunTaskAPI e o stream do Amazon CloudWatch Logs.

TEMPO LIMITE DE EXECUÇÃO

Tempo limite de execução após number minutos.

ERRO_DE_SERVIÇO Houve um erro transitório no serviço. Tente executar o fluxo de trabalho novamente.

TAMANHO_DE_ENTRADA NÃO SUPORTADO

O tamanho total da entrada é muito alto. Diminua o tamanho da entrada e tente novamente.

FALHA NA EXECUÇÃO DO FLUXO DE TRABALHO

Falha na execução do fluxo de trabalho. Analise o fluxo de CloudWatch registros do mecanismo de registros: ID para depurar a falha.

FALHA NA VALIDAÇÃO_DE_FLUXO DE TRABALHO

HealthOmics não suporta a versão solicitada do Nextflow: version --. A versão mais recente suportada éversion. Modifique sua versão do Nextflow para uma versão compatível e tente novamente.

TIPO_DE_INSTÂNCIA DE GPU_NÃO SUPORTADO

O tipo de instância solicitado não é compatível comRegion. Tente executar novamente com um tipo de instância de GPU compatível com essa região. Os tipos de instância disponíveis sãoGPU instance types.

Orientação para corridas sem resposta

Ao desenvolver novos fluxos de trabalho, as execuções ou tarefas específicas podem ficar “travadas” ou “travadas” se houver problemas com seu código e as tarefas não saírem dos processos adequadamente. Isso pode ser difícil de solucionar e capturar, pois é normal que as tarefas sejam executadas por longos períodos. Para evitar e identificar execuções que não respondem, siga as melhores práticas sugeridas nas seções a seguir.

Práticas recomendadas para evitar execuções sem resposta

  • Certifique-se de fechar todos os arquivos abertos no código da tarefa. Abrir muitos arquivos pode ocasionalmente levar a problemas de segmentação nos mecanismos de fluxo de trabalho.

  • Os processos em segundo plano criados por uma tarefa de fluxo de trabalho devem sair quando a tarefa for encerrada. No entanto, se um processo em segundo plano não sair corretamente, você deverá encerrá-lo explicitamente no código da tarefa.

  • Garanta que seus processos não ocorram sem sair. Isso pode causar uma execução sem resposta e requer uma alteração no código de definição do fluxo de trabalho para ser resolvido.

  • Forneça alocação adequada de memória e CPU para suas tarefas. Analise os CloudWatch registros ou use-os Execute o Analyzer em execuções concluídas com êxito do seu fluxo de trabalho para verificar se você tem a alocação de computação ideal. Use o headroom parâmetro Run Analyzer para incluir espaço adicional, garantindo que os processos tenham recursos suficientes para serem concluídos. Inclua pelo menos 5% de espaço livre na memória e na CPU alocadas, para considerar os processos do sistema operacional em segundo plano.

    • Além disso, aumente o tamanho da largura de banda da instância se a instância exigir uma taxa de transferência maior. EC2 As instâncias da Amazon com menos de 16 v CPUs (tamanho 4xl ou menor) podem experimentar uma explosão na taxa de transferência. Para obter mais informações sobre a taxa de transferência de EC2 instâncias da Amazon, consulte a largura de banda da instância EC2 disponível da Amazon.

  • Verifique se você está usando o tamanho correto do sistema de arquivos para suas execuções. Para execuções que não respondem e estão usando armazenamento de execução estática, considere aumentar a alocação de armazenamento de execução estática para permitir maior taxa de transferência de E/S e capacidade de armazenamento no sistema de arquivos. Analise o manifesto de execução para ver o armazenamento máximo do sistema de arquivos e use o Run Analyzer para determinar se a alocação do sistema de arquivos precisa ser aumentada.

Práticas recomendadas para capturar execuções que não respondem

  • Ao desenvolver novos fluxos de trabalho, use um grupo de execução com o limite máximo de tempo de execução definido para capturar o código em fuga. Por exemplo, se uma execução levar 1 hora para ser concluída, coloque-a em um grupo de execução que atinja o tempo limite após 2 ou 3 horas (ou em um período de tempo diferente com base no seu caso de uso) para capturar trabalhos desnecessários. Além disso, aplique um buffer para contabilizar a variação nos tempos de processamento.

  • Configure uma série de grupos de execução com diferentes limites máximos de tempo de execução. Por exemplo, você pode atribuir tiragens curtas a um grupo de execução que encerra as execuções após algumas horas e a um grupo de corridas longas que encerra as execuções após alguns dias, com base na duração esperada do fluxo de trabalho.

  • HealthOmics tem um limite máximo padrão de serviço de duração de execução de 604.800 segundos, ou 7 dias, que é ajustável por meio de uma solicitação na ferramenta de cotas. Solicite um aumento do limite de serviço dessa cota somente se você tiver execuções com duração aproximada de uma semana. Se você tem uma combinação de execuções curtas e longas e não está usando grupos de execução, considere colocar as execuções de longa duração em uma conta separada com um limite máximo de serviço de duração de execução maior.

  • Inspecione os CloudWatch registros em busca de tarefas que você suspeita que possam não responder. Se uma tarefa normalmente gera instruções de log regulares e não o faz há um longo período, é provável que a tarefa esteja paralisada ou congelada.

O que fazer se você encontrar uma corrida sem resposta

  • Cancele a corrida para evitar custos adicionais.

  • Inspecione os registros de tarefas para verificar se algum processo falhou ao sair corretamente.

  • Inspecione os registros do motor para identificar qualquer comportamento anormal do motor.

  • Compare os registros de tarefas e mecanismos da execução sem resposta com os de execuções idênticas concluídas com êxito. Isso pode ajudar a identificar quaisquer diferenças que possam ter causado o comportamento de não resposta.

  • Se você não conseguir determinar a causa raiz, crie um caso de suporte e inclua o seguinte:

    • ARN da execução paralisada e ARN de uma execução idêntica que foi concluída com êxito.

    • Registros do motor (disponíveis quando a execução é cancelada ou falha)

    • Registros de tarefas para a tarefa que não responde. Não exigimos registros de tarefas de todas as tarefas do fluxo de trabalho para solucionar problemas.