OPS02-BP03 Atividades de operações com proprietários identificados responsáveis pela performance - Pilar Excelência operacional

OPS02-BP03 Atividades de operações com proprietários identificados responsáveis pela performance

Entenda quem tem a responsabilidade de realizar atividades específicas em workloads definidas e por que essa responsabilidade existe. Entender quem tem a responsabilidade de realizar atividades informa quem realizará a atividade, valida o resultado e fornece feedback ao proprietário da atividade.

Resultado desejado:

Sua organização define claramente as responsabilidades de realizar atividades específicas em workloads definidas e reagir aos eventos gerados pela workload. A organização documenta a propriedade dos processos e o cumprimento e torna essas informações detectáveis. Você analisa e atualiza as responsabilidades quando ocorrem mudanças organizacionais, e as equipes monitoram e medem a performance das atividades de identificação de defeitos e ineficiência. Você implementa mecanismos de feedback para rastrear defeitos e aprimoramentos e apoiar a melhoria iterativa.

Práticas comuns que devem ser evitadas:

  • Você não documenta responsabilidades.

  • Scripts fragmentados estão presentes em estações de trabalho de operadores isoladas. Apenas algumas pessoas sabem como usá-las ou se referem informalmente a elas como conhecimento de equipe.

  • Um processo herdado precisa ser atualizado, mas ninguém sabe quem é responsável pelo processo e o autor original não faz mais parte da organização.

  • Processos e scripts não podem ser descobertos, portanto, não estão prontamente disponíveis quando necessário (por exemplo, em resposta a um incidente).

Benefícios de implementar esta prática recomendada:

  • Você sabe quem é responsável por realizar uma atividade, a quem notificar quando uma ação é necessária e quem realiza a ação, valida o resultado e fornece feedback ao responsável pela atividade.

  • Os processos e os procedimentos impulsionam seus esforços para operar as workloads.

  • Novos membros da equipe se tornam efetivos mais rapidamente.

  • Você reduz o tempo necessário para atenuar incidentes.

  • Equipes diferentes usam os mesmos processos e procedimentos para realizar tarefas de maneira consistente.

  • As equipes podem escalar os processos com procedimentos repetíveis.

  • Processos e procedimentos padronizados ajudam a atenuar o impacto da transferência de responsabilidades de workload entre equipes.

Nível de risco exposto se esta prática recomendada não for estabelecida: Alto

Orientação para implementação

Para começar a definir responsabilidades, comece com a documentação existente, como matrizes de responsabilidade, processos e procedimentos, perfis e responsabilidades, bem como ferramentas e automação. Revise e organize discussões sobre as responsabilidades pelos processos documentados. Revise com as equipes para identificar desalinhamentos entre as responsabilidades documentadas e os processos. Aborde os serviços oferecidos com os clientes internos dessa equipe para identificar as lacunas de expectativas entre as equipes.

Analise e resolva as discrepâncias. Identifique oportunidades de melhoria e procure atividades frequentemente solicitadas e que consomem muitos recursos, que normalmente são fortes candidatas a melhorias. Examine as práticas recomendadas, os padrões e as recomendações para simplificar e padronizar as melhorias. Registre oportunidades de melhoria e acompanhe as melhorias até a conclusão.

Com o tempo, esses procedimentos devem ser desenvolvidos para ser executados como código, reduzindo a necessidade de intervenção humana. Por exemplo, os procedimentos podem ser iniciados como funções do AWS Lambda, modelos do AWS CloudFormation ou documentos de automação do AWS Systems Manager. Verifique se esses procedimentos têm controle de versão nos repositórios apropriados e inclua a marcação de recursos adequada para que as equipes possam identificar prontamente os proprietários e a documentação. Documente a responsabilidade pela realização das atividades e, depois, monitore as automações para iniciação e operação bem-sucedidas, bem como a performance dos resultados desejados.

Exemplo de cliente

A AnyCompany Retail define propriedade como a equipe ou o indivíduo que é responsável pelos processos de uma aplicação ou grupos de aplicações que compartilham práticas e tecnologias de arquitetura comuns. Inicialmente, a empresa documenta os processos e os procedimentos como guias passo a passo no sistema de gerenciamento de documentos. Ela torna os procedimentos detectáveis usando tags na Conta da AWS que hospeda a aplicação e em grupos específicos de recursos dentro da conta, usando o AWS Organizations para gerenciar as Contas da AWS. Com o tempo, a AnyCompany Retail converte esses processos em código e define recursos usando a infraestrutura como código (por meio de serviços como o CloudFormation ou de modelos do AWS Cloud Development Kit (AWS CDK)). Os processos operacionais se tornam documentos de automação no AWS Systems Manager ou nas funções do AWS Lambda, os quais podem ser iniciados como tarefas agendadas em resposta a eventos como os alarmes do Amazon CloudWatch ou os eventos do Amazon EventBridge ou iniciados por solicitações em uma plataforma de gerenciamento de serviços de TI (ITSM). Todos os processos têm tags para identificar quem é responsável por eles. As equipes gerenciam a documentação para a automação e o processo nas páginas wiki geradas pelo repositório de código do processo.

Etapas de implementação

  1. Documente os processos e os procedimentos existentes.

    1. Revise e verifique se eles estão atualizados.

    2. Verifique se cada processo ou procedimento tem um proprietário.

    3. Submeta os procedimentos ao controle de versão.

    4. Sempre que possível, compartilhe processos e procedimentos entre workloads e ambientes que compartilham projetos de arquitetura.

  2. Estabeleça mecanismos de feedback e melhoria.

    1. Defina políticas sobre a frequência com que os processos devem ser revisados.

    2. Defina processos para revisores e aprovadores.

    3. Implemente uma fila de problemas ou de tíquetes para fornecer e rastrear o feedback.

    4. Sempre que possível, forneça pré-aprovação e classificação de risco para processos e procedimentos de um conselho de aprovação de mudanças (CAB).

  3. Torne os processos e os procedimentos acessíveis e detectáveis pelos usuários que precisam executá-los.

    1. Use tags para indicar onde os processos e os procedimentos podem ser acessados para a workload.

    2. Use mensagens relevantes de erros e eventos para indicar os processos ou os procedimentos apropriados para resolver o problema.

    3. Use wikis ou gerenciamento de documentos para tornar os processos e os procedimentos pesquisáveis de forma consistente em toda a organização.

  4. Automatize quando for apropriado.

    1. Quando os serviços e as tecnologias fornecerem uma API, desenvolva automações.

    2. Verifique se os processos estão bem compreendidos e desenvolva as histórias e os requisitos dos usuários para automatizar esses processos.

    3. Avalie o uso bem-sucedido de processos e procedimentos, e faça rastreamento dos problemas para contribuir com a melhoria iterativa.

Nível de esforço do plano de implementação: Médio

Recursos

Práticas recomendadas relacionadas:

Documentos relacionados:

Vídeos relacionados:

Exemplos relacionados: