Säule „Operational Excellence“ - AWS Präskriptive Leitlinien

Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.

Säule „Operational Excellence“

Die Säule Operational Excellence des AWS Well-Architected Framework konzentriert sich auf den Betrieb und die Überwachung von Systemen sowie die kontinuierliche Verbesserung von Prozessen und Verfahren. Dazu gehört die Fähigkeit, die Entwicklung zu unterstützen und Workloads effektiv auszuführen, Einblicke in deren Betrieb zu gewinnen und die unterstützenden Prozesse und Verfahren kontinuierlich zu verbessern, um einen Mehrwert für das Unternehmen zu erzielen. Sie können die betriebliche Komplexität reduzieren, indem Sie Workloads automatisch reparieren, wodurch die meisten Probleme ohne menschliches Eingreifen erkannt und behoben werden. Sie können auf dieses Ziel hinarbeiten, indem Sie die in diesem Abschnitt beschriebenen Best Practices befolgen und Amazon Neptune Analytics-Metriken und -Mechanismen verwenden APIs, um angemessen zu reagieren, wenn Ihre Arbeitslast vom erwarteten Verhalten abweicht.

Diese Diskussion über den Pfeiler Operational Excellence konzentriert sich auf die folgenden Schlüsselbereiche:

  • Infrastructure as Code (IaC)

  • Änderungsmanagement

  • Strategien zur Resilienz

  • Vorfallmanagement

  • Auditberichte zur Einhaltung der Vorschriften

  • Protokollierung und Überwachung

Automatisieren Sie die Bereitstellung mithilfe eines IaC-Ansatzes

Zu den bewährten Methoden für die Automatisierung der Bereitstellung auf Neptune mithilfe von IaC gehören:

Design für den Betrieb

Nutzen Sie Ansätze, um die Bedienung von Neptune Analytics-Diagrammen zu verbessern:

  • Pflegen Sie separate Neptune Analytics-Diagramme für Entwicklung, Test und Produktion. Diese Diagramme können unterschiedliche Datensätze, Benutzer und Betriebskontrollen haben.

  • Pflegen Sie separate Neptune Analytics-Diagramme für verschiedene Zwecke. Wenn beispielsweise zwei Gruppen von analytischen Benutzern separate Diagramme mit unterschiedlichen Zeitplänen, Modellen, Leistung und Verfügbarkeit sowie Nutzungsmustern benötigen SLAs, sollten Sie separate Diagramme für jede Gruppe verwalten.

  • Bereiten Sie Benutzer und Betriebspersonal auf Wartungsupdates für Neptune Analytics vor.

Nehmen Sie häufige, kleine, umkehrbare Änderungen vor

Die folgenden Empfehlungen konzentrieren sich auf kleine, umkehrbare Änderungen, die Sie vornehmen können, um die Komplexität zu minimieren und die Wahrscheinlichkeit einer Unterbrechung der Arbeitslast zu verringern:

  • Speichern Sie IaC-Vorlagen und -Skripts in einem Quellcodeverwaltungsdienst wie GitHub oder GitLab.

    Wichtig

    Speichern Sie keine AWS Anmeldeinformationen in der Quellcodeverwaltung.

  • Erfordern Sie, dass IaC-Bereitstellungen einen CI/CD-Dienst (Continuous Integration and Continuous Delivery) wie oder verwenden. AWS CodeDeployAWS CodeBuild Kompilieren, testen und implementieren Sie Code in einer Neptune Analytics-Umgebung außerhalb der Produktionsumgebung, bevor Sie ihn in ein Produktionsdiagramm hochstufen.

Implementieren Sie Observability für umsetzbare Erkenntnisse

Verschaffen Sie sich ein umfassendes Verständnis von Verhalten, Leistung, Zuverlässigkeit, Kosten und Zustand von Workloads. Die folgenden Empfehlungen helfen Ihnen dabei, dieses Verständnis von Neptune Analytics zu erlangen:

  • Überwachen Sie CloudWatch Amazon-Metriken für Neptune Analytics. Anhand dieser Metriken können Sie die Größe eines Diagramms (Anzahl der Knoten, Kanten und Vektoren plus Gesamtbytegröße), die CPU-Auslastung sowie die Anforderungs- und Fehlerraten bei Abfragen bestimmen.

  • Erstellen Sie CloudWatch Dashboards und Alarme für wichtige Kennzahlen wieNumQueuedRequestsPerSec,, NumOpenCypherRequestsPerSec GraphStorageUsagePercentGraphSizeBytes, und CPUUtilization sowie für Neptune-Kundenantworten, die Sie in Ihren Anwendungsprotokollen finden.

  • Richten Sie Benachrichtigungen ein, um den Zustand des Neptune Analytics-Diagramms zu überwachen, z. B. wenn die Grafikgröße, die Anforderungsrate oder die CPU-Auslastung Ihren Schwellenwert überschreiten. Wenn beispielsweise in einer Grafik, die Sie deutlich erhöhen möchten, auf 90 Prozent GraphStorageUsagePercent gestiegen ist, entscheiden Sie, ob Sie die speicheroptimierte Kapazität der Neptune Capacity Unit (m-NCU) erhöhen möchten. Wenn die aktuelle m-NCU 128 ist, wird durch eine Erhöhung auf 256 der Speicherplatz um etwa 45 Prozent reduziert. Wenn der Wert häufig größer als Null NumQueuedRequestsPerSec ist, sollten Sie eine Erhöhung der m-NCU-Kapazität in Betracht ziehen, um mehr Rechenkapazität bereitzustellen. Alternativ können Sie die clientseitige Parallelität reduzieren.

Lernen Sie aus allen Betriebsausfällen

Eine Infrastruktur zur Selbstheilung ist ein langfristiges Projekt, das sich in mehreren Schritten entwickelt, wenn seltene Probleme auftreten oder die Reaktionen nicht so effektiv sind wie gewünscht. Durch die Anwendung der folgenden Methoden wird die Konzentration auf dieses Ziel vorangetrieben:

  • Treiben Sie Verbesserungen voran, indem Sie aus allen Fehlern lernen.

  • Teilen Sie das Gelernte mit den Teams und der Organisation. Wenn mehrere Teams in Ihrem Unternehmen Neptune verwenden, erstellen Sie einen gemeinsamen Chatroom oder eine Benutzergruppe, um Erfahrungen und bewährte Verfahren auszutauschen.

Verwenden Sie Protokollierungsfunktionen, um unbefugte oder ungewöhnliche Aktivitäten zu überwachen

Verwenden Sie die Protokollierung, um ungewöhnliche Leistungs- und Aktivitätsmuster zu beobachten. Beachten Sie die folgenden bewährten Methoden:

  • Neptune Analytics unterstützt die Protokollierung von Aktionen auf der Kontrollebene mithilfe von. AWS CloudTrail Weitere Informationen finden Sie unter Protokollieren von Neptune Analytics-API-Aufrufen mithilfe von. AWS CloudTrail Mit dieser Funktion können Sie die Erstellung, Aktualisierung und Löschung von Neptune Analytics-Ressourcen verfolgen. Für eine zuverlässige Überwachung und Alarmierung können Sie CloudTrail Ereignisse auch in Amazon CloudWatch Logs integrieren. Um Ihre Analyse der Neptune Analytics-Serviceaktivitäten zu verbessern und Änderungen der Aktivitäten für einen zu identifizieren AWS-Konto, können Sie CloudTrailProtokolle mithilfe von Amazon Athena abfragen. Beispielsweise können Sie mithilfe von Abfragen Trends ermitteln und Vorgänge nach Attributen (z. B. Quell-IP-Adresse oder Benutzer) trennen.

  • Sie können es auch verwenden CloudTrail , um die Protokollierung von Neptune Analytics-Datenebenenaktivitäten wie Abfrageausführungen zu aktivieren. Sie können sehen, welche Abfragen ausgeführt werden, wie häufig sie ausgeführt werden und aus welcher Quelle sie stammen. Protokolliert standardmäßig CloudTrail keine Datenereignisse. Für Datenereignisse werden zusätzliche Gebühren fällig. Weitere Informationen finden Sie unter AWS CloudTrail – Preise.

  • Sie können Ihre Anwendungsaufrufe bei Neptune Analytics auch entweder in der Steuerungsebene oder in der Datenebene protokollieren. Wenn Sie beispielsweise die für Abfragen verwenden, können Sie AWS SDK für Python (Boto3)die Protokollierung auf Debug-Ebene aktivieren, um eine Ablaufverfolgung von Anfragen an die Konsole oder Datei zu erhalten. Dies ist während der Entwicklung nützlich. Wir empfehlen Ihnen außerdem, Ausnahmen aus Ihrer Anwendung abzufangen und zu protokollieren.