OPS04-BP02 Implementar telemetría de aplicaciones - Pilar de excelencia operativa

OPS04-BP02 Implementar telemetría de aplicaciones

La telemetría de aplicaciones sirve de base de la observabilidad de su carga de trabajo. Es crucial emitir telemetría que ofrezca información procesable sobre el estado de la aplicación y el logro de los resultados técnicos y empresariales. Desde la solución de problemas hasta la medición del impacto de una nueva característica o la garantía de la alineación con los indicadores clave de rendimiento (KPI) de la empresa, la telemetría de las aplicaciones informa sobre la forma de crear, operar y hacer evolucionar su carga de trabajo.

Las métricas, los registros y los rastreos forman los tres pilares principales de la observabilidad. Sirven como herramientas de diagnóstico que describen el estado de la aplicación. Con el tiempo, ayudan a crear puntos de referencia e identificar anomalías. Sin embargo, para garantizar la alineación entre las actividades de supervisión y los objetivos empresariales, es fundamental definir y supervisar los KPI. Los KPI empresariales suelen facilitar la identificación de los problemas en comparación con las métricas técnicas únicamente.

Otros tipos de telemetría, como la supervisión de usuarios reales (RUM) y las transacciones sintéticas, complementan estos orígenes de datos principales. RUM ofrece información sobre las interacciones de los usuarios en tiempo real, mientras que las transacciones sintéticas simulan los posibles comportamientos de los usuarios, lo que ayuda a detectar los cuellos de botella antes de que los usuarios reales los encuentren.

Resultado deseado: obtenga información útil sobre el rendimiento de su carga de trabajo. Estos conocimientos le permiten tomar decisiones proactivas sobre la optimización del rendimiento, lograr una mayor estabilidad de la carga de trabajo, optimizar los procesos de CI/CD y utilizar los recursos de manera eficaz.

Antipatrones usuales:

  • Observabilidad incompleta: no incorporar la observabilidad en todos los niveles de la carga de trabajo produce puntos ciegos que pueden ocultar información vital sobre el rendimiento y el comportamiento del sistema.

  • Vista de datos fragmentada: cuando los datos están dispersos en varias herramientas y sistemas, resulta difícil mantener una visión integral del estado y el rendimiento de la carga de trabajo.

  • Problemas informados por los usuarios: esa es una señal de que falta una detección proactiva de los problemas mediante una telemetría y una supervisión de los KPI empresariales.

Beneficios de establecer esta práctica recomendada:

  • Toma de decisiones informadas: con la información de la telemetría y los KPI empresariales, puede tomar decisiones basadas en datos.

  • Mejora de la eficiencia operativa: la utilización de los recursos basada en datos conduce a la rentabilidad.

  • Mejora de la estabilidad de la carga de trabajo: una mayor rapidez en la detección y resolución de problemas mejora el tiempo de actividad.

  • Procesos de CI/CD simplificados: la información obtenida de los datos de telemetría facilita el refinamiento de los procesos y la entrega fiable de código.

Nivel de riesgo expuesto si no se establece esta práctica recomendada: alto

Guía para la implementación

Para implementar la telemetría de aplicaciones para su carga de trabajo, utilice servicios de AWS como Amazon CloudWatch y AWS X-Ray. Amazon CloudWatch proporciona un conjunto completo de herramientas de supervisión que le permiten observar sus recursos y aplicaciones en entornos locales y de AWS. Recopila, sigue y analiza las métricas, consolida y supervisa los datos de registro y responde a los cambios en los recursos, lo que mejora su comprensión de cómo funciona su carga de trabajo. Al mismo tiempo, AWS X-Ray le permite rastrear, analizar y depurar sus aplicaciones, lo que le proporciona una comprensión profunda del comportamiento de su carga de trabajo. Con características como los mapas de servicios, las distribuciones de latencia y la cronología de rastreo, AWS X-Ray proporciona información sobre el rendimiento de su carga de trabajo y los cuellos de botella que le afectan.

Pasos para la implementación

  1. Identifique los datos que hay que recopilar: determine las métricas, los registros y los rastreos esenciales que podrían ofrecer información sustancial sobre el estado, el rendimiento y el comportamiento de su carga de trabajo.

  2. Despliegue el agente de CloudWatch: el agente de CloudWatch es fundamental a la hora de obtener métricas y registros del sistema y las aplicaciones de su carga de trabajo y su infraestructura subyacente. El agente de CloudWatch también se puede utilizar para recopilar rastreos de X-Ray o OpenTelemetry y enviarlos a X-Ray.

  3. Implemente la detección de anomalías para los registros y las métricas: utilice la detección de anomalías de CloudWatch Logs y la detección de anomalías de métricas de CloudWatch para identificar automáticamente las actividades inusuales en las operaciones de su aplicación. Estas herramientas utilizan algoritmos de machine learning para detectar anomalías y alertar sobre ellas, lo que mejora las capacidades de supervisión y acelera el tiempo de respuesta ante posibles interrupciones o amenazas de seguridad. Configure estas características para administrar de forma proactiva el estado y la seguridad de las aplicaciones.

  4. Proteja los datos de registros confidenciales: utilice la protección de datos de Amazon CloudWatch Logs para ocultar la información confidencial de sus registros. Esta característica ayuda a mantener la privacidad y el cumplimiento mediante la detección automática y el enmascaramiento de los datos confidenciales antes de que se acceda a ellos. Implemente el enmascaramiento de datos para gestionar y proteger de forma segura los datos confidenciales, como la información de identificación personal (PII).

  5. Defina y supervise los KPI empresariales: establezca métricas personalizadas que se ajusten a los resultados empresariales.

  6. Instrumente su aplicación con AWS X-Ray: además de desplegar el agente de CloudWatch, es crucial instrumentar su aplicación para que emita datos de rastreo. Este proceso puede proporcionar más información sobre el comportamiento y el rendimiento de su carga de trabajo.

  7. Estandarice la recopilación de datos en toda su aplicación: estandarice las prácticas de recopilación de datos en toda la aplicación. La uniformidad ayuda a correlacionar y analizar los datos y proporciona una vista completa del comportamiento de la aplicación.

  8. Implemente la observabilidad entre cuentas: mejore la eficiencia de la supervisión en múltiples Cuentas de AWS con la observabilidad entre cuentas de Amazon CloudWatch. Con esta característica, puede consolidar las métricas, los registros y las alarmas de diferentes cuentas en una sola vista, lo que simplifica la administración y mejora los tiempos de respuesta para los problemas identificados en el entorno de AWS de su organización.

  9. Analice los datos y actúe en consecuencia: una vez que la recopilación y la normalización de los datos estén en marcha, utilice Amazon CloudWatch para realizar el análisis de métricas y registros, y AWS X-Ray para el análisis de rastreos. Este análisis puede proporcionar información crucial sobre el estado, el rendimiento y el comportamiento de su carga de trabajo, lo que guiará su proceso de toma de decisiones.

Nivel de esfuerzo para el plan de implementación: alto

Recursos

Prácticas recomendadas relacionadas:

Documentos relacionados:

Vídeos relacionados:

Ejemplos relacionados: