Etapa 1: coletar dados sobre o problema
A primeira etapa para solucionar problemas de um cluster é coletar informações sobre o que deu errado e o status e a configuração atuais do cluster. Essas informações serão usadas nas etapas a seguir para confirmar ou descartar as possíveis causas do problema.
Definir o problema
Começamos fazendo uma definição clara do problema. Algumas perguntas para se fazer:
-
O que eu esperava que acontecesse? O que aconteceu em vez disso?
-
Quando o problema ocorreu pela primeira vez? Com que frequência ele ocorreu desde então?
-
Alguma coisa mudou na forma como eu configuro ou executo o cluster?
Detalhes do cluster
Os detalhes do cluster a seguir são úteis para ajudar a monitorar problemas. Para obter mais informações sobre como reunir essas informações, consulte Visualizar o status e os detalhes do cluster.
-
Identificador do cluster. (Também chamado de identificador de fluxo de trabalho.)
-
A Região da AWS e a zona de disponibilidade nas quais o cluster foi executado.
-
Estado do cluster, inclusive detalhes da última alteração de estado.
-
Tipo e número de instâncias do EC2 especificados para os nós principal, central e de tarefa.