Uso de los planes de respuesta en Incident Manager - Incident Manager

Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.

Uso de los planes de respuesta en Incident Manager

Los planes de respuesta le permiten planificar cómo responder a un incidente que afecte a sus usuarios. Un plan de respuesta funciona como una plantilla que incluye información sobre a quién involucrar, la gravedad prevista del suceso, los manuales de procedimientos automáticos por iniciar y las métricas por monitorear.

Prácticas recomendadas

Puede reducir el impacto de los incidentes en sus equipos al planificarlos con antelación. Los equipos deberían tener en cuenta las siguientes prácticas recomendadas al diseñar un plan de respuesta.

  • Participación racionalizada: identifique el equipo más apropiado para un incidente. Si involucra una lista de distribución demasiado amplia, o si involucra a equipos equivocados, podría causar confusión y hacer perder tiempo a los respondedores durante un incidente.

  • Escalada fiable: para sus compromisos en un plan de respuesta, le recomendamos que seleccione un plan de participación en vez de contactos u horarios de guardia. El plan de participación debe especificar los contactos individuales o los horarios de guardia (que contienen múltiples contactos rotativos) que debe involucrar durante los incidentes. Dado que los respondedores especificados en su plan de participación podrían resultar inaccesibles en ocasiones, deberá configurar respondedores de reserva en su plan de respuesta para cubrir estos escenarios. Con contactos de reserva, si los contactos principal y secundario no estuvieran disponibles o hubiera otras lagunas no planificadas en la cobertura, Incident Manager seguirá notificando el incidente a un contacto.

  • Manuales de procedimientos: utilice los manuales de procedimientos para proporcionar pasos repetibles y comprensibles que reduzcan el estrés que experimenta un respondedor durante un incidente.

  • Colaboración: utilice los canales de chat para agilizar la comunicación durante los incidentes. Los canales de chat ayudan a los respondedores a mantenerse al día con la información. También pueden compartir información con otros respondedores a través de estos canales.

Creación de un plan de respuesta

Utilice el siguiente procedimiento para crear un plan de respuesta y automatizar la respuesta a incidentes.

Para crear un plan de respuesta
  1. Abra la consola de Incident Manager y, en el panel de navegación, elija Planes de respuesta.

  2. Elija Crear plan de respuesta.

  3. En Nombre, introduzca un nombre del plan de respuesta único e identificable para utilizarlo en el nombre de recurso de Amazon (ARN) para el plan de respuesta.

  4. (Opcional) En Nombre para mostrar, introduzca un nombre más legible para las personas que le ayude a identificar el plan de respuesta al crear incidentes.

  5. Realice a continuación la Especificación de valores predeterminados para los registros de incidentes.

Especificación de valores predeterminados para incidentes

Para ayudarle a administrar los incidentes de forma más eficaz, puede especificar valores predeterminados. Incident Manager aplica estos valores a todos los incidentes que estén asociados a un plan de respuesta.

Para especificar valores predeterminados de incidentes
  1. En Título, introduzca un título para este incidente que le ayude a identificarlo en la página de inicio de Incident Manager.

  2. En Impacto, elija un nivel de impacto para indicar el alcance potencial de un incidente creado a partir de este plan de respuesta, como Crítico o Bajo. Para obtener información sobre los niveles de impacto en Incident Manager, consulte Triaje.

  3. (Opcional) En Resumen, introduzca un breve resumen del tipo de incidente creado a partir de este plan de respuesta.

  4. (Opcional) En Cadena de deduplicación, introduzca una cadena de deduplicación. Incident Manager utiliza esta cadena para evitar que la misma causa raíz cree varios incidentes en la misma cuenta.

    Una cadena de deduplicación es un término o frase que el sistema utiliza para buscar incidentes duplicados. Si especifica una cadena de deduplicación, Incident Manager busca incidentes abiertos que contengan la misma cadena en el campo dedupeString al crear el incidente. Si se detecta un duplicado, Incident Manager deduplica el incidente más reciente en el incidente existente.

    nota

    De forma predeterminada, Incident Manager deduplica automáticamente múltiples incidentes creados por la misma alarma de Amazon CloudWatch o evento de Amazon EventBridge. No es necesario que introduzca su propia cadena de deduplicación para evitar la duplicación para estos tipos de recursos.

  5. (Opcional) En Etiquetas de incidentes, añada claves y valores de etiqueta para asignar a los incidentes creados por este plan de respuesta.

    Debe tener el permiso TagResource para el recurso de registro de incidentes a fin de establecer etiquetas de incidentes dentro del plan de respuesta.

  6. Realice a continuación la Especificación de un canal de chat opcional para que los respondedores comuniquen entre sí acerca de los incidentes.

(Opcional) Especificación de un canal de chat de respuesta a incidentes

Al incluir un canal de chat en un plan de respuesta, los respondedores reciben las actualizaciones del incidente a través del canal. Pueden interactuar con el incidente directamente desde el canal de chat utilizando comandos de chat.

Con AWS Chatbot, puede crear un canal para Slack o Amazon Chime a fin de utilizarlo en sus planes de respuesta. Para obtener información sobre la creación de un canal de chat en AWS Chatbot, consulte la Guía del administrador de AWS Chatbot.

importante

Incident Manager debe tener permisos para publicar en el tema de Amazon Simple Notification Service (Amazon SNS) de un canal de chat. Sin permisos para publicar en ese tema de SNS, no podrá añadirlo al plan de respuesta. Incident Manager publica una notificación de prueba en el tema de SNS para verificar los permisos.

Para obtener más información sobre los canales de chat, consulte Uso de los canales de chat en Incident Manager.

Para especificar un canal de chat de respuesta a incidentes
  1. En Canal de chat, elija un canal de chat de AWS Chatbot en el que los respondedores puedan comunicar durante un incidente.

    sugerencia

    Para crear un nuevo canal de chat en AWS Chatbot, elija Configurar nuevo cliente Chatbot.

  2. En Temas de SNS del canal de chat, elija temas de SNS adicionales en los que publicar durante el incidente. Añadir temas de SNS en varias Regiones de AWS aumenta la redundancia en caso de que una región esté caída en el momento del incidente.

  3. Realice a continuación la Selección de contactos, horarios de guardia y planes de escalada que se activarán durante un incidente.

(Opcional) Selección de recursos que se activarán en una respuesta a incidentes

Es importante identificar a los respondedores más apropiados al producirse un incidente. Como práctica recomendada, le sugerimos que haga lo siguiente:

  1. Añada contactos y horarios de guardia como los canales de escalada en un plan de escalada.

  2. Elija un plan de escalada como compromiso en un plan de respuesta.

Para obtener más información sobre contactos y planes de escalada, consulte Uso de los contactos en Incident Manager y Uso de los planes de escalada en Incident Manager.

Para seleccionar los recursos por involucrar en la respuesta a incidentes
  1. En Participaciones, elija cualquier número de planes de escalada, programas de guardia y contactos individuales.

  2. Como opción, realice a continuación la Especificación de un manual de procedimientos para ejecutar como parte de su mitigación de incidentes.

(Opcional) Especificación de un manual de procedimientos para mitigación de incidentes

Puede utilizar manuales de procedimientos de automatización de AWS Systems Manager, una capacidad de AWS Systems Manager, para automatizar tareas comunes de aplicaciones e infraestructuras en su entorno de Nube de AWS.

Cada manual de procedimientos define un flujo de trabajo del manual de procedimientos. Un flujo de trabajo del manual de procedimientos incluye las acciones que Systems Manager realiza en sus nodos administrados o en otros tipos de recursos de AWS. En Incident Manager, un manual de procedimientos administra la respuesta y mitigación de incidentes.

Para obtener más información sobre el uso de manuales de procedimientos en los planes de respuesta, consulte Uso de los manuales de procedimientos de Systems Manager Automation en Incident Manager.

Para especificar un manual de procedimientos para mitigación de incidentes:

  1. En Manual de procedimientos, realice una de las siguientes acciones:

    • Elija Clonar manual de procedimientos de una plantilla para hacer una copia del manual de procedimientos predeterminado de Incident Manager. En Nombre, introduzca un nombre descriptivo para el nuevo manual de procedimientos.

    • Elija Seleccionar manual de procedimientos existente. Seleccione el Propietario, el Manual de procedimientos y la Versión que desee utilizar.

      sugerencia

      Para crear un manual de procedimientos desde cero, elija Configurar nuevo manual de procedimientos.

      Para obtener más información acerca de la creación de manuales de procedimientos, consulte Uso de los manuales de procedimientos de Systems Manager Automation en Incident Manager.

  2. En el área Parámetros, introduzca los parámetros solicitados para el manual de procedimientos que haya seleccionado.

    Los parámetros disponibles son los especificados por el manual de procedimientos. Un manual de procedimientos podría requerir parámetros distintos a los de otro manual. Algunos parámetros podrían ser obligatorios y otros opcionales.

    En muchos casos, puede optar por introducir manualmente un valor estático para un parámetro, como una lista de ID de instancia de Amazon EC2. También puede permitir que Incident Manager proporcione los valores de los parámetros generados dinámicamente por un incidente.

  3. (Opcional) En AutomationAssumeRole, especifique el rol de AWS Identity and Access Management (IAM) que se vaya a utilizar. Este rol debe tener los permisos necesarios para ejecutar los comandos individuales especificados dentro del manual de procedimientos.

    nota

    Si no se especifica AssumeRole, Incident Manager intentará utilizar el rol de servicio Runbook para ejecutar los comandos individuales especificados dentro del manual de procedimientos.

    Elija una de las siguientes opciones:

    • Introducir valor de ARN: introduzca manualmente el nombre de recurso de Amazon (ARN) de un AssumeRole, en el formato arn:aws:iam::account-id:role/assume-role-name. Por ejemplo, arn:aws:iam::123456789012:role/MyAssumeRole.

    • Utilizar un rol de servicio existente: elija un rol con los permisos requeridos de una lista de roles existentes en su cuenta.

    • Crear nuevo rol de servicio: elija entre políticas administradas de AWS para vincular a su AssumeRole. Tras seleccionar esta opción, en Políticas administradas de AWS, elija una o más políticas en la lista.

      Puede aceptar el nombre predeterminado sugerido para el nuevo rol o introducir uno que usted elija.

      nota

      Este nuevo rol de servicio Runbook está asociado con el manual de procedimientos específico que haya seleccionado. No se puede utilizar con manuales de procedimientos diferentes. Esto se debe a que la sección de recursos de la política no admite otros manuales de procedimientos.

  4. En Rol de servicio Runbook, especifique el rol de IAM que se utilizará para proporcionar los permisos necesarios para acceder e iniciar el flujo de trabajo del manual de procedimientos en sí.

    Como mínimo, el rol debe permitir la acción ssm:StartAutomationExecution para su manual de procedimientos específico. Para que el manual de procedimientos funcione en todas las cuentas, el rol también debe permitir la acción sts:AssumeRole para el rol AWS-SystemsManager-AutomationExecutionRole que creó durante Administración de incidentes entre regiones y entre cuentas en Incident Manager.

    Elija una de las siguientes opciones:

    • Crear nuevo rol de servicio: Incident Manager crea un rol de servicio Runbook para usted que incluye los permisos mínimos necesarios para iniciar el flujo de trabajo del manual de procedimientos.

      En Nombre del rol, puede aceptar el nombre predeterminado sugerido o introducir uno que usted elija. Le recomendamos que utilice el nombre sugerido o que mantenga el nombre del manual de procedimientos en el nombre. Esto se debe a que el nuevo AssumeRole está asociado con el manual de procedimientos específico que ha seleccionado y puede que no incluya los permisos necesarios para otros manuales de procedimientos.

    • Utilizar rol de servicio existente: un rol de IAM creado previamente por usted o por Incident Manager otorga los permisos necesarios.

      En Nombre del rol, seleccione el nombre del rol existente que desee utilizar.

  5. Expanda Opciones adicionales y seleccione una de las siguientes para especificar la Cuenta de AWS en que debe ejecutarse el flujo de trabajo del manual de procedimientos.

    • Cuenta del propietario del plan de respuesta: inicia el flujo de trabajo del manual de procedimientos en la Cuenta de AWS que lo creó.

    • Cuenta afectada: inicie el flujo de trabajo del manual de procedimientos en la cuenta que inició o notificó el incidente.

      Elija Cuenta afectada cuando utilice Incident Manager para escenarios entre cuentas y el manual de procedimientos necesite acceder a los recursos de la cuenta afectada para corregirlos.

  6. Como opción, realice a continuación la Integración de un servicio de PagerDuty en el plan de respuesta.

(Opcional) Integración de un servicio de PagerDuty en el plan de respuesta

Para integrar un servicio de PagerDuty en el plan de respuesta

Al integrar Incident Manager con PagerDuty, PagerDuty crea un incidente correspondiente toda vez que Incident Manager cree un incidente. El incidente en PagerDuty utiliza el flujo de trabajo de paginación y las políticas de escalada que haya definido allí, además de las de Incident Manager. PagerDuty vincula los eventos de línea temporal de Incident Manager como notas en su incidente.

  1. Expanda Integraciones de terceros y marque la casilla Habilitar integración de PagerDuty.

  2. En Seleccionar secreto, seleccione el secreto en AWS Secrets Manager donde almacena las credenciales para acceder a su cuenta de PagerDuty.

    Para obtener información sobre cómo almacenar sus credenciales de PagerDuty en un secreto del Administrador de secretos, consulte Almacenar las credenciales de acceso en secreto PagerDuty AWS Secrets Manager.

  3. En Servicio de PagerDuty, seleccione el servicio de su cuenta de PagerDuty donde desea crear el incidente de PagerDuty.

  4. Realice a continuación la Adición de etiquetas opcionales y creación del plan de respuesta.

Adición de etiquetas y creación del plan de respuesta

Para añadir etiquetas y crear el plan de respuesta
  1. (Opcional) En el área Etiquetas, aplique uno o más pares de nombre-valor de claves de etiqueta al plan de respuesta.

    Las etiquetas son metadatos opcionales que usted asigna a un recurso. Con las etiquetas, puede categorizar un recurso de diferentes maneras, como por propósito, propietario o entorno. Por ejemplo, es posible que desee etiquetar un plan de respuesta para identificar el tipo de incidente que debe mitigar, los tipos de canales de escalada que contiene o el plan de escalada que se le asociará. Para obtener más información sobre el etiquetado de recursos de Incident Manager, consulte Etiquetado de recursos en Incident Manager.

  2. Elija Crear plan de respuesta.