Lebenszyklus eines Data Lake - Bewährte Methoden für Amazon Connect Data Lake

Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.

Lebenszyklus eines Data Lake

Der Aufbau eines Data Lakes umfasst in der Regel fünf Phasen:

  • Speicher einrichten

  • Daten verschieben

  • Daten aufbereiten und katalogisieren

  • Konfiguration von Sicherheitsrichtlinien

  • Bereitstellung von Daten für den Konsum

Die folgende Abbildung zeigt ein allgemeines Architekturdiagramm eines Amazon Connect-Contact-Center-Data Lakes, der in AWS-Dienste für Analytik und künstliche Intelligenz und maschinelles Lernen (KI/ML) integriert ist. Der folgende Abschnitt behandelt die in dieser Abbildung gezeigten Szenarien und AWS-Services.

Ein Diagramm, das den Amazon Connect Contact Center-Data Lake mit AWS-Analysen und KI/ML-Services zeigt

Amazon Connect Contact Center-Data Lake mit AWS-Analyse- und KI-/ML-Services

Speicher

Amazon S3 ist ein Objektspeicherservice, der branchenführende Skalierbarkeit, Datenverfügbarkeit, Sicherheit und Leistung bietet. S3 bietet eine Beständigkeit von 99,999999999% und eine Verfügbarkeit von 99,99% bei starker Konsistenz und unbegrenztem Datenspeicher weltweit. Sie können Cross-Region Replication (CRR) verwenden, um Daten zwischen S3-Buckets in mehreren Regionen zu kopieren, um gesetzliche Vorschriften einzuhalten und Anforderungen mit geringer Latenz zu erfüllen. S3 skaliert den Durchsatz automatisch für Leistung und betriebliche Effizienz.

S3-Buckets und -Objekte sind privat, wobei S3 Block Public Access standardmäßig für alle Regionen weltweit aktiviert ist. Sie können zentralisierte Zugriffskontrollen für S3-Ressourcen mithilfe von Bucket-Richtlinien, AWS Identity and Access Management(IAM) -Richtlinien und Zugriffskontrolllisten (ACLs) einrichten. Mit Access Analyzer for S3 können Sie alle Buckets mit öffentlichem Zugriff auswerten und identifizieren. Mit Objektpräfixen und Tagging können Sie Zugriffskontrollen, Speicher-Tiering und Replikationsregeln auf Objektebene detailliert verwalten.

AWS CloudTrailprotokolliert jeden API-Aufruf an die S3-Serverzugriffsprotokollierung. Das S3-Inventar prüft und meldet den Replikations- und Verschlüsselungsstatus Ihrer Daten.

S3 Intelligent-Tiering bietet automatische Kosteneinsparungen, indem Daten zwischen häufigen und seltenen Zugriffsstufen verschoben werden, wenn sich die Zugriffsmuster ändern, ohne dass sich dies auf die Leistung oder den Betriebsaufwand auswirkt. S3 Glacier Deep Archive spart bis zu 95% der Speicherkosten für Objekte, auf die selten zugegriffen wird und die langfristig aufbewahrt werden müssen.

Das Speichern von Daten in Spaltenformaten wie Apache Parquet und Optimized Row Columnar (ORC) ermöglicht schnellere Abfragen und reduziert die Verarbeitungskosten mit Amazon Athena. Komprimierungsoptionen wie Snappy with Parquet reduzieren den Kapazitätsbedarf und die Speicherkosten.

Mit S3 Select und S3 Glacier Select können Sie Objektmetadaten mithilfe eines SQL-Ausdrucks (Structured Query Language) abfragen, ohne die Objekte in einen anderen Datenspeicher verschieben zu müssen.

S3 Batch Operations automatisieren Massenoperationen an S3-Objekten, wie z. B. das Aktualisieren von Objektmetadaten und Eigenschaften, das Ausführen von Speicherverwaltungsaufgaben, das Ändern von Zugriffskontrollen und das Wiederherstellen archivierter Objekte aus S3 Glacier.

S3 Access Points vereinfachen und bündeln den Zugriff auf gemeinsam genutzte Daten auf S3 durch verschiedene Teams und Anwendungen. Jeder Access Point ist mit einem eindeutigen DNS-Namen für einen einzelnen Bucket verknüpft. Sie können Richtlinien zur Servicesteuerung (SCPs) erstellen, um Zugriffspunkte auf eine Amazon Virtual Private Cloud (Amazon VPC) einzuschränken und Daten in Ihren privaten Netzwerken zu isolieren.

S3 Transfer Acceleration ermöglicht die Dateiübertragung über große Entfernungen zwischen Ihrer Client-Umgebung und S3-Buckets.

Wenn Ihr Data Lake wächst, bietet S3 Storage Lens unternehmensweite Einblicke in die Objektspeichernutzung und die Aktivitätstrends mit umsetzbaren Empfehlungen zur Reduzierung von Kosten und Betriebskosten.

Aufnahme

AWS bietet ein umfassendes Portfolio an Datenübertragungsservices, mit dem Sie Ihre vorhandenen Daten in einen zentralen Data Lake verschieben können. Amazon Storage Gateway und AWS Direct Connect können Hybrid-Cloud-Speicheranforderungen erfüllen. Erwägen Sie für die Online-Datenübertragung die Verwendung von AWS DataSync und Amazon Kinesis. Verwenden Sie die AWS Snow-Familie für die Offline-Datenübertragung.

  • AWS Storage Gatewayerweitert Ihre lokalen Umgebungen auf AWS-Speicher, indem Bandbibliotheken durch Cloud-Speicher ersetzt werden, auf Cloud-Speicher gestützte Dateifreigaben bereitgestellt oder ein Cache mit niedriger Latenz für den Zugriff auf Ihre Daten in AWS aus lokalen Umgebungen erstellt wird.

  • AWS Direct Connectstellt eine private Konnektivität zwischen Ihren lokalen Umgebungen und AWS her, um die Netzwerkkosten zu senken, den Durchsatz zu erhöhen und ein konsistentes Netzwerkerlebnis zu bieten.

  • AWS DataSync kann Millionen von Dateien in S3, Amazon Elastic File System (Amazon EFS) oder Amazon FSx for Windows File Server übertragen und gleichzeitig die Netzwerkauslastung optimieren.

  • Amazon Kinesis bietet eine sichere Möglichkeit, Streaming-Daten zu erfassen und in S3 zu laden. Amazon Data Firehose ist ein vollständig verwalteter Service für die direkte Übertragung von Echtzeit-Streaming-Daten an S3. Firehose passt sich automatisch dem Volumen und dem Durchsatz der Streaming-Daten an und erfordert keine laufende Verwaltung. Sie können Streaming-Daten mithilfe von Komprimierung, Verschlüsselung, Datenstapelung oder AWS LambdaFunktionen in Firehose transformieren, bevor Sie Daten in S3 speichern. Die Firehose-Verschlüsselung unterstützt die serverseitige S3-Verschlüsselung mit AWS Key Management Service()AWS KMS. Alternativ können Sie die Daten mit Ihrem benutzerdefinierten Schlüssel verschlüsseln. Firehose kann mehrere eingehende Datensätze zu einem einzigen S3-Objekt verketten und bereitstellen, um die Kosten zu senken und den Durchsatz zu optimieren.

    AWS Snow Family bietet einen Offline-Datenübertragungsmechanismus. AWS Snowball Edgebietet ein tragbares und robustes Edge-Computing-Gerät für die Datenerfassung, -verarbeitung und -migration. Für Datenübertragungen im Exabyte-Bereich können Sie AWS Snowmobile verwenden, um riesige Datenmengen in die Cloud zu verschieben.

    DistCpbietet eine verteilte Kopierfunktion zum Verschieben von Daten im Hadoop-Ökosystem. S3 DisctCp ist eine Erweiterung, die für die DistCp Übertragung von Daten zwischen Hadoop Distributed File System (HDFS) und S3 optimiert ist. Dieser Blog enthält Informationen zum Verschieben von Daten zwischen HDFS und S3 mithilfe von S3. DistCp

Katalogisierung

Ein häufiges Problem bei einer Data-Lake-Architektur ist die mangelnde Kontrolle über den Inhalt der im Data Lake gespeicherten Rohdaten. Organizations benötigen Governance, semantische Konsistenz und Zugriffskontrollen, um die Fallstricke zu vermeiden, die mit der Schaffung eines Datensumpfs ohne Pflege einhergehen.

AWS Lake Formationkann die Datenaufnahme verwalten, AWS Glueindem Daten automatisch klassifiziert und Definitionen, Schemata und Metadaten in einem zentralen Datenkatalog gespeichert werden. Lake Formation verfügt über integrierte Funktionen für maschinelles Lernen zur Deduplizierung und zur Suche nach passenden Datensätzen, um die Datenqualität zu verbessern. Für schnellere Analysen konvertiert Lake Formation Daten in Apache Parquet und ORC, bevor sie in Ihrem S3 Data Lake gespeichert werden. Sie können Zugriffsrichtlinien definieren, einschließlich Zugriffskontrollen auf Tabellen- und Spaltenebene, oder Datenverschlüsselung im Ruhezustand erzwingen. Durch die konsequente Durchsetzung der Sicherheitsvorkehrungen können Ihre Benutzer mithilfe von Analyse- und Machine-Learning-Diensten ihrer Wahl auf einen kuratierten und zentralisierten Datensatz zugreifen und diesen analysieren.

AWS Glue DataBrew, ein Tool zur visuellen Datenaufbereitung, ermöglicht es Dateneigentümern, Fachexperten oder Benutzern aller Fachrichtungen, am Datenaufbereitungsprozess teilzunehmen. Ohne Code schreiben zu müssen, können Ihre Teams aus über 250 vorgefertigten Transformationen wählen, um Datenvorbereitungsaufgaben zu automatisieren, darunter das Filtern von Datenanomalien, das Konvertieren von Daten in Standardformate und das Korrigieren ungültiger Werte. Die transformierten Daten sind bereit für fortgeschrittene Analysen und Machine-Learning-Projekte.

Sicherheit

Amazon Connect trennt Daten nach AWS-Konto-ID und Amazon Connect Connect-Instance-ID, um den autorisierten Datenzugriff auf Amazon Connect Connect-Instance-Ebene sicherzustellen.

Amazon Connect verschlüsselt personenbezogene Daten (PII), Kontaktdaten und Kundenprofile im Speicher mithilfe eines zeitlich begrenzten Schlüssels, der für Ihre Amazon Connect Connect-Instanz spezifisch ist. Die serverseitige S3-Verschlüsselung schützt sowohl Sprach- als auch Chat-Aufzeichnungen im Ruhezustand mithilfe eines für jedes AWS-Konto eindeutigen KMS-Datenschlüssels. Sie behalten die vollständige Sicherheitskontrolle bei, um den Benutzerzugriff auf Anrufaufzeichnungen in Ihrem S3-Bucket zu konfigurieren, einschließlich der Nachverfolgung, wer Anrufaufzeichnungen abhört oder löscht. Amazon Connect verschlüsselt die Stimmabdrücke der Kunden mit einem diensteigenen KMS-Schlüssel, um die Kundenidentität zu schützen. Alle zwischen Amazon Connect und anderen AWS-Services oder externen Anwendungen ausgetauschten Daten werden bei der Übertragung immer mit der branchenüblichen Transport Layer Security (TLS) -Verschlüsselung verschlüsselt.

Die Sicherung eines Data Lakes erfordert detaillierte Kontrollen, um den autorisierten Datenzugriff und die Nutzung sicherzustellen. S3-Ressourcen sind privat und standardmäßig nur für ihren Ressourcenbesitzer zugänglich. Der Ressourcenbesitzer kann eine Kombination aus ressourcen- oder identitätsbasierten IAM-Richtlinien erstellen, um Berechtigungen für S3-Buckets und -Objekte zu gewähren und zu verwalten. Ressourcenbasierte Richtlinien, wie z. B. Bucket-Richtlinien, sind an Ressourcen angehängt. ACLs Im Gegensatz dazu sind identitätsbasierte Richtlinien an die IAM-Benutzer, -Gruppen oder -Rollen in Ihrem AWS-Konto angehängt.

Wir empfehlen für die meisten Data Lake-Umgebungen identitätsbasierte Richtlinien, um die Verwaltung des Ressourcenzugriffs und die Serviceberechtigungen für Ihre Data Lake-Benutzer zu vereinfachen. Sie können IAM-Benutzer, -Gruppen und -Rollen in AWS-Konten erstellen und sie identitätsbasierten Richtlinien zuordnen, die Zugriff auf S3-Ressourcen gewähren.

Das AWS Lake Formation Berechtigungsmodell funktioniert in Verbindung mit IAM-Berechtigungen, um den Zugriff auf den Data Lake zu steuern. Das Lake Formation Formation-Berechtigungsmodell verwendet einen GRANT- oder REVOKE-Mechanismus im Stil eines Datenbankmanagementsystems (DBMS). IAM-Berechtigungen enthalten identitätsbasierte Richtlinien. Beispielsweise muss ein Benutzer die Berechtigungsprüfungen sowohl durch IAM- als auch durch Lake Formation Formation-Berechtigungen bestehen, bevor er auf eine Data Lake-Ressource zugreifen kann.

AWS CloudTrail verfolgt Amazon Connect Connect-API-Aufrufe, einschließlich der IP-Adresse und Identität des Anfragenden sowie Datum und Uhrzeit der Anfrage im CloudTrail Ereignisverlauf. Die Erstellung eines AWS CloudTrail Trails ermöglicht die kontinuierliche Bereitstellung von AWS CloudTrail Protokollen an Ihren S3-Bucket.

Amazon Athena Workgroups können die Ausführung von Abfragen trennen und den Zugriff durch Benutzer, Teams oder Anwendungen mithilfe ressourcenbasierter Richtlinien kontrollieren. Sie können die Kostenkontrolle durchsetzen, indem Sie die Datennutzung in den Arbeitsgruppen einschränken.

Überwachen

Beobachtbarkeit ist unerlässlich, um die Verfügbarkeit, Zuverlässigkeit und Leistung eines Kontaktzentrums und eines Data Lakes sicherzustellen. Amazon CloudWatch bietet systemweiten Einblick in die Ressourcennutzung, die Anwendungsleistung und den Betriebszustand. Protokollieren Sie relevante Informationen aus den Amazon Connect Connect-Kontaktabläufen bei Amazon CloudWatch und erstellen Sie Benachrichtigungen in Echtzeit, wenn die Betriebsleistung unter vordefinierte Schwellenwerte fällt.

Amazon Connect sendet die Nutzungsdaten der Instance als CloudWatch Amazon-Metriken im Abstand von einer Minute. Die Datenspeicherung für CloudWatch Amazon-Metriken beträgt zwei Wochen. Definieren Sie frühzeitig die Anforderungen für die Aufbewahrung von Protokollen und Lebenszyklusrichtlinien, um die Einhaltung gesetzlicher Vorschriften sicherzustellen und Kosten für die langfristige Datenarchivierung zu sparen.

Amazon CloudWatch Logs bietet eine einfache Möglichkeit, Protokolldaten zu filtern und Verstöße zu identifizieren, um Vorfälle zu untersuchen und deren Lösung zu beschleunigen. Sie können die Kontaktabläufe anpassen, um Anrufer mit hohem Risiko oder potenziell betrügerische Aktivitäten zu erkennen. Sie können beispielsweise die Verbindung zu allen eingehenden Kontakten trennen, die auf Ihrer vordefinierten Ablehnungsliste stehen.

Analysen

Ein Data Lake für Kontaktzentren, der auf einem Portfolio mit beschreibenden, vorausschauenden Analysen und Echtzeitanalysen basiert, hilft Ihnen dabei, aussagekräftige Erkenntnisse zu gewinnen und wichtige Geschäftsfragen zu beantworten.

Sobald Ihre Daten im S3-Datensee gelandet sind, können Sie alle speziell entwickelten Analysedienste wie Amazon Athena und Amazon QuickSight für eine Vielzahl von Anwendungsfällen ohne arbeitsintensive ETL-Jobs (Extrahieren, Transformieren und Laden) verwenden. Alternativ können Sie Ihre bevorzugten Analyseplattformen in Ihren S3-Data Lake integrieren. In diesem Blog finden Sie eine exemplarische Vorgehensweise zur Analyse von Amazon Connect Connect-Daten mit Amazon Athena und Amazon. AWS Glue QuickSight

Für eine hoch skalierbare Data Warehousing-Lösung können Sie Datenstreaming in Amazon Connect aktivieren, um Kontaktdatensätze über Amazon Kinesis in Amazon Redshift zu streamen.

Machine Learning

Der Aufbau eines Data Lakes bringt ein neues Paradigma in die Contact-Center-Architektur und ermöglicht es Ihrem Unternehmen, mithilfe von Funktionen für maschinelles Lernen (ML) einen verbesserten und personalisierten Kundenservice zu bieten.

Die herkömmliche ML-Entwicklung ist ein komplexer und teurer Prozess. AWS bietet die Tiefe und Breite einer leistungsstarken, kostengünstigen, skalierbaren Infrastruktur und flexiblen ML-Services für jedes ML-Projekt oder jede Arbeitslast.

Amazon SageMaker AI ist ein vollständig verwalteter Service, der es Ihren Datenwissenschaftlern und Entwicklern ermöglicht, ML-Modelle für Contact-Center-Anwendungsfälle in großem Umfang zu erstellen, zu trainieren und bereitzustellen. Die Datenvorbereitung macht bis zu 80% der Zeit von Datenwissenschaftlern aus. Amazon SageMaker AI Data Wrangler vereinfacht und beschleunigt die Datenaufbereitung und Feature-Engineering aus verschiedenen Datenquellen mithilfe von über 300 integrierten Datentransformationen, ohne dass Code geschrieben werden muss. Sie können standardisierte Funktionen im Amazon SageMaker AI Feature Store speichern, um sie wiederzuverwenden und mit dem Rest Ihrer Organisation zu teilen.

Um Kundenabwanderungen zu vermeiden, ist es wichtig, die Reibung während einer Kundenreise zu reduzieren. Um Ihr Kontaktzentrum intelligenter zu gestalten, können Sie KI-gestützte Konversations-Chatbots mithilfe der Funktionen für automatische Spracherkennung (ASR) und Natural Language Understanding (NLU) von Amazon Lex erstellen. Kunden können Self-Service-Aufgaben wie das Zurücksetzen von Passwörtern, die Überprüfung des Kontostands und die Terminplanung über Chatbots durchführen, ohne mit den menschlichen Mitarbeitern sprechen zu müssen. Um die häufig gestellten Fragen (FAQs) des Kontaktzentrums zu automatisieren, können Sie mit Amazon Lex und Amazon Kendra einen Frage-und-Antwort-Chatbot (Q&A) erstellen. Durch die Aktivierung der Textprotokollierung in Amazon CloudWatch Logs und das Speichern von Audioeingaben in S3 können Sie den Gesprächsfluss analysieren, das Gesprächsdesign verbessern und die Benutzerinteraktion erhöhen.

Um die allgemeine Servicequalität zu verbessern, ist es wichtig, die Dynamik zwischen Anrufer und Agent zu verstehen. In diesem Blog erfahren Sie, wie Sie Sprachaufzeichnungen über Kinesis Video Stream zur Spracherkennung an Amazon Transcribe streamen und mit Amazon Comprehend Audio in Text umwandeln und Stimmungsanalysen für die Transkripte durchführen können.

Für Unternehmen mit internationaler Präsenz können Sie mit Amazon Polly oder Amazon Translate für die Sprachübersetzung ein mehrsprachiges Spracherlebnis in Amazon Connect einrichten.

Herkömmliche Finanzplanungssoftware erstellt Prognosen auf der Grundlage historischer Zeitreihendaten, ohne inkonsistente Trends und relevante Variablen zu korrelieren. Amazon Forecast bietet eine um bis zu 50% höhere Genauigkeit mithilfe von maschinellem Lernen, um die zugrunde liegende Beziehung zwischen Zeitreihendaten und anderen Variablen wie Produktmerkmalen und Filialstandorten zu ermitteln. Da keine Erfahrung mit maschinellem Lernen erforderlich ist, können Sie ganz einfach eine Bedarfs- oder Inventarprognose für Agenten erstellen, indem Sie Amazon Forecast Zeitreihen und zugehörige Daten in Ihrem S3-Bucket zur Verfügung stellen. Sie können vertrauliche Inhalte mit Amazon Forecast verschlüsseln AWS KMS und den Zugriff auf Amazon Forecast mithilfe der IAM-Richtlinie kontrollieren. Amazon Forecast trainiert und hostet ein benutzerdefiniertes Modell für maschinelles Lernen in einer hochverfügbaren Umgebung. Sie können schnell hochgenaue Geschäftsprognosen erstellen, ohne eine Infrastruktur oder einen komplexen maschinellen Lernprozess verwalten zu müssen.

Amazon Connect stellt Anrufattribute von Telefonanbietern bereit, z. B. den geografischen Standort der Sprachausrüstung, um zu zeigen, woher der Anruf stammt, Telefongerätetypen wie Festnetz oder Mobilfunk, Anzahl der Netzwerksegmente, die der Anruf durchquert hat, und andere Informationen zur Anruferzeugung. Mit dem vollständig verwalteten Amazon Fraud Detector können Sie ein ML-Modell erstellen, um potenziell betrügerische Aktivitäten zu identifizieren, indem Sie Ihre Datensätze mit Amazon Connect Connect-Anrudattributen kombinieren. Sie können beispielsweise den Kontaktablauf so anpassen, dass Telefonanrufe mit potenziellen Betrugssignalen intelligent an einen spezialisierten Agenten weitergeleitet werden.