Ciclo di vita del data lake - Best practice per Amazon Connect Data Lake

Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.

Ciclo di vita del data lake

La creazione di un data lake prevede in genere cinque fasi:

  • Configurazione dello storage

  • Spostamento dei dati

  • Preparazione e catalogazione dei dati

  • Configurazione delle politiche di sicurezza

  • Rendere i dati disponibili per il consumo

La figura seguente è un diagramma di architettura di alto livello di un data lake di contact center Amazon Connect che si integra con servizi di AWS analisi e intelligenza artificiale/apprendimento automatico (AI/ML). La sezione seguente illustra gli scenari e i AWS servizi mostrati in questa figura.

Un diagramma che mostra il data lake del contact center Amazon Connect con AWS analisi e servizi AI/ML

Data lake per contact center Amazon Connect con AWS analisi e servizi AI/ML

Storage

Amazon S3 è un servizio di storage di oggetti che offre scalabilità, disponibilità dei dati, sicurezza e prestazioni all'avanguardia nel settore. S3 offre una durabilità del 99,99999% e una disponibilità del 99,99% con una forte coerenza e uno spazio di archiviazione dati illimitato a livello globale. Puoi utilizzare Cross-Region Replication (CRR) per copiare i dati tra i bucket S3 in più regioni per soddisfare i requisiti di conformità normativa e di bassa latenza. S3 scala automaticamente il throughput per prestazioni ed efficienza operativa.

I bucket e gli oggetti S3 sono privati e S3 Block Public Access è abilitato per impostazione predefinita in tutte le regioni a livello globale. Puoi configurare controlli di accesso centralizzati sulle risorse S3 utilizzando le policy dei bucket, AWS Identity and Access Management(IAM) e le liste di controllo degli accessi (). ACLs Puoi valutare e identificare qualsiasi bucket con accesso pubblico utilizzando Access Analyzer per S3. Con i prefissi e i tag degli oggetti, puoi gestire i controlli di accesso, lo storage su più livelli e le regole di replica con granularità a livello di oggetto.

AWS CloudTrailregistra ogni chiamata nella registrazione degli accessi al server S3. API S3 verifica l'inventario e riporta lo stato di replica e crittografia dei dati.

S3 Intelligent-Tiering offre risparmi automatici sui costi spostando i dati tra livelli di accesso frequenti e meno frequenti quando i modelli di accesso cambiano, senza impatto sulle prestazioni o sovraccarico operativo. S3 Glacier Deep Archive consente di risparmiare fino al 95% sui costi di storage per oggetti a cui si accede raramente e che richiedono una conservazione a lungo termine.

L'archiviazione dei dati in formati colonnari come Apache Parquet e Optimized Row Columnar (ORC) consente query più rapide e riduce i costi di elaborazione con Amazon Athena. Le opzioni di compressione come Snappy with Parquet riducono i requisiti di capacità e i costi di archiviazione.

Con S3 Select e S3 Glacier Select, è possibile interrogare i metadati degli oggetti utilizzando l'espressione Structured Query Language (SQL) senza spostare gli oggetti in un altro archivio dati.

S3 Batch Operations automatizza le operazioni di massa sugli oggetti S3, come l'aggiornamento dei metadati e delle proprietà degli oggetti, l'esecuzione di attività di gestione dello storage, la modifica dei controlli di accesso e il ripristino degli oggetti archiviati da S3 Glacier.

Gli access point S3 semplificano e aggregano l'accesso ai dati condivisi su S3 da parte di diversi team e applicazioni. Ogni punto di accesso è associato a un DNS nome univoco per un singolo bucket. Puoi creare politiche di controllo del servizio (SCPs) per limitare i punti di accesso a un Amazon Virtual Private Cloud (AmazonVPC) e isolare i dati all'interno delle tue reti private.

S3 Transfer Acceleration consente il trasferimento di file su lunghe distanze tra l'ambiente client e i bucket S3.

Man mano che il data lake cresce, S3 Storage Lens offre una visibilità a livello aziendale sull'utilizzo dello storage di oggetti e sulle tendenze delle attività, con consigli pratici per ridurre i costi e il sovraccarico operativo.

Ingestione

AWSoffre un portafoglio completo di servizi di trasferimento dati per spostare i dati esistenti in un data lake centralizzato. Amazon Storage Gateway e AWSDirect Connect possono soddisfare le esigenze di storage su cloud ibrido. Per il trasferimento di dati online, prendi in considerazione l'utilizzo AWS DataSyncdi Amazon Kinesis. Usa AWSSnow Family per il trasferimento di dati offline.

  • AWS Storage Gatewayestende gli ambienti locali AWS allo storage sostituendo le librerie a nastro con lo storage su cloud, fornendo condivisioni di file basate sull'archiviazione cloud o creando una cache a bassa latenza per accedere ai dati dagli ambienti locali. AWS

  • AWS Direct Connectstabilisce una connettività privata tra gli ambienti locali AWS per ridurre i costi di rete, aumentare la velocità effettiva e fornire un'esperienza di rete coerente.

  • AWS DataSyncpuò trasferire milioni di file in S3, Amazon Elastic File System (AmazonEFS) o Amazon FSx for Windows File Server ottimizzando al contempo l'utilizzo della rete.

  • Amazon Kinesis offre un modo sicuro per acquisire e caricare dati in streaming in S3. Amazon Data Firehose è un servizio completamente gestito per la distribuzione di dati in streaming in tempo reale direttamente su S3. Firehose si ridimensiona automaticamente in base al volume e alla velocità di trasmissione dei dati in streaming e non richiede alcuna amministrazione continua. È possibile trasformare i dati in streaming utilizzando compressione, crittografia, data batching o AWS Lambdafunzioni all'interno di Firehose prima di archiviare i dati in S3. La crittografia Firehose supporta la crittografia lato server S3 con (). AWS Key Management ServiceAWS KMS In alternativa, puoi crittografare i dati con la tua chiave personalizzata. Firehose è in grado di concatenare e fornire più record in entrata come un unico oggetto S3 per ridurre i costi e ottimizzare il throughput.

    AWSSnow Family offre un meccanismo di trasferimento dati offline. AWS Snowballoffre un dispositivo di edge computing portatile e rinforzato per la raccolta, l'elaborazione e la migrazione dei dati. Per il trasferimento di dati su scala exabyte, puoi utilizzare AWSSnowmobile per spostare enormi volumi di dati nel cloud.

    DistCpoffre una funzionalità di copia distribuita per spostare i dati nell'ecosistema Hadoop. S3 DisctCp è un'estensione DistCp ottimizzata per lo spostamento di dati tra Hadoop Distributed File System () e S3. HDFS Questo blog fornisce informazioni su come spostare i dati tra HDFS e S3 utilizzando S3. DistCp

Catalogazione

Una sfida comune con un'architettura data lake è la mancanza di supervisione sul contenuto dei dati grezzi archiviati nel data lake. Le organizzazioni hanno bisogno di governance, coerenza semantica e controlli degli accessi per evitare le insidie derivanti dalla creazione di una palude di dati senza alcuna cura.

AWS Lake Formationè in grado di gestire l'ingestione dei dati AWS Glueclassificando automaticamente i dati e archiviando definizioni, schemi e metadati in un catalogo dati centrale. Lake Formation dispone di funzionalità di machine learning integrate per la deduplicazione e la ricerca di record corrispondenti per migliorare la qualità dei dati. Per un'analisi più rapida, Lake Formation converte i dati in Apache Parquet e ORC prima di archiviarli nel data lake S3. Puoi definire le policy di accesso, inclusi i controlli di accesso a livello di tabella e colonna, o applicare la crittografia dei dati inattivi. Con un'applicazione coerente della sicurezza, gli utenti possono accedere e analizzare un set di dati curato e centralizzato utilizzando la loro scelta di servizi di analisi e apprendimento automatico.

AWS Glue DataBrew, uno strumento di preparazione visiva dei dati, consente ai proprietari dei dati, agli esperti in materia o agli utenti con tutte le competenze di partecipare al processo di preparazione dei dati. Senza dover scrivere alcun codice, i team possono scegliere tra oltre 250 trasformazioni predefinite per automatizzare le attività di preparazione dei dati, tra cui il filtraggio delle anomalie dei dati, la conversione dei dati in formati standard e la correzione di valori non validi. I dati trasformati sono pronti per progetti di analisi avanzata e apprendimento automatico.

Sicurezza

Amazon Connect separa i dati per ID AWS account e ID istanza Amazon Connect per garantire l'accesso autorizzato ai dati a livello di istanza Amazon Connect.

Amazon Connect crittografa le informazioni di identificazione personale (PII), i dati di contatto e i profili dei clienti inattivi utilizzando una chiave limitata nel tempo specifica per la tua istanza Amazon Connect. La crittografia lato server di S3 protegge le registrazioni vocali e di chat inutilizzate utilizzando una chiave dati unica per account. KMS AWS Mantieni il controllo di sicurezza completo per configurare l'accesso degli utenti alle registrazioni delle chiamate nel tuo bucket S3, incluso il monitoraggio di chi ascolta o elimina le registrazioni delle chiamate. Amazon Connect crittografa le impronte vocali dei clienti con una KMS chiave di proprietà del servizio per proteggere l'identità del cliente. Tutti i dati scambiati tra Amazon Connect e altri AWS servizi o applicazioni esterne vengono sempre crittografati in transito utilizzando la crittografia Transport Layer Security () standard del settore. TLS

La protezione di un data lake richiede controlli dettagliati per garantire l'accesso e l'uso autorizzati dei dati. Per impostazione predefinita, le risorse S3 sono private e accessibili solo dal proprietario delle risorse. Il proprietario della risorsa può creare una combinazione di IAM politiche basate sulle risorse o sull'identità per concedere e gestire le autorizzazioni per i bucket e gli oggetti S3. Le politiche basate sulle risorse, come le policy relative ai bucket, sono associate alle risorse. ACLs Al contrario, le politiche basate sull'identità sono allegate IAM agli utenti, ai gruppi o ai ruoli dell'account. AWS

Consigliamo politiche basate sull'identità per la maggior parte degli ambienti di data lake per semplificare la gestione dell'accesso alle risorse e l'autorizzazione ai servizi per gli utenti dei data lake. Puoi creare IAM utenti, gruppi e ruoli negli AWS account e associarli a politiche basate sull'identità che garantiscono l'accesso alle risorse S3.

Il modello di AWS Lake Formation autorizzazione funziona in combinazione con le IAMautorizzazioni per gestire l'accesso ai data lake. Il modello di autorizzazione di Lake Formation utilizza uno stile GRANT o un REVOKE meccanismo di gestione del database (DBMS). IAMle autorizzazioni contengono politiche basate sull'identità. Ad esempio, un utente deve superare i controlli delle autorizzazioni IAM sia di Lake Formation che di Lake Formation prima di accedere a una risorsa data lake.

AWS CloudTrail tiene traccia delle API chiamate Amazon Connect, inclusi l'indirizzo IP e l'identità del richiedente e la data e l'ora della richiesta nella Cronologia CloudTrail eventi. La creazione di un AWS CloudTrail trail consente la consegna continua dei AWS CloudTrail log al tuo bucket S3.

I gruppi di lavoro di Amazon Athena possono separare l'esecuzione delle query e controllare l'accesso da parte di utenti, team o applicazioni utilizzando politiche basate sulle risorse. Puoi imporre il controllo dei costi limitando l'utilizzo dei dati nei gruppi di lavoro.

Monitoraggio

L'osservabilità è essenziale per garantire la disponibilità, l'affidabilità e le prestazioni di un contact center e di un data lake. Amazon CloudWatch offre visibilità a livello di sistema per l'utilizzo delle risorse, le prestazioni delle applicazioni e lo stato operativo. Registra le informazioni pertinenti dai flussi di contatti di Amazon Connect su Amazon CloudWatch e crea notifiche in tempo reale quando le prestazioni operative scendono al di sotto delle soglie predefinite.

Amazon Connect invia i dati di utilizzo dell'istanza come CloudWatch parametri Amazon a intervalli di un minuto. La conservazione dei dati per i CloudWatch parametri di Amazon è di due settimane. Definisci tempestivamente i requisiti di conservazione dei log e le politiche del ciclo di vita, assicurati la conformità normativa e risparmi sui costi per l'archiviazione dei dati a lungo termine.

Amazon CloudWatch Logs offre un modo semplice per filtrare i dati di log e identificare gli eventi di non conformità per le indagini sugli incidenti e accelerare le risoluzioni. Puoi personalizzare i flussi di contatto per rilevare chiamanti ad alto rischio o attività potenzialmente fraudolente. Ad esempio, puoi disconnettere tutti i contatti in entrata presenti nella tua lista di rifiuto predefinita.

Analisi

Un data lake per contact center basato su un portafoglio di analisi descrittivo, predittivo e in tempo reale consente di estrarre informazioni significative e rispondere a domande aziendali critiche.

Una volta che i dati arrivano nel data lake S3, puoi utilizzare qualsiasi servizio di analisi appositamente progettato come Amazon Athena e Amazon QuickSight per un'ampia gamma di casi d'uso senza processi di estrazione, trasformazione e caricamento () che richiedono molta manodopera. ETL In alternativa, puoi portare le tue piattaforme di analisi preferite nel tuo data lake S3. Consulta questo blog per una procedura dettagliata sull'analisi dei dati di Amazon Connect con Amazon Athena e Amazon. AWS Glue QuickSight

Per una soluzione di data warehousing altamente scalabile, puoi abilitare lo streaming di dati in Amazon Connect per trasmettere i record dei contatti in Amazon Redshift tramite Amazon Kinesis.

Machine learning

La creazione di un data lake introduce un nuovo paradigma nell'architettura dei contact center, che consente alle aziende di fornire un servizio clienti migliorato e personalizzato utilizzando funzionalità di machine learning (ML).

Lo sviluppo del machine learning tradizionale è un processo complesso e costoso. AWSoffre la profondità e l'ampiezza di un'infrastruttura scalabile ad alte prestazioni, economica e scalabile e di servizi ML flessibili per qualsiasi progetto o carico di lavoro ML.

Amazon SageMaker è un servizio completamente gestito che consente ai data scientist e agli sviluppatori di creare, addestrare e implementare modelli di machine learning per casi d'uso di contact center su larga scala. La preparazione dei dati contribuisce fino all'80% del tempo dei data scientist. Amazon SageMaker Data Wrangler semplifica e accelera la preparazione dei dati e l'ingegneria delle funzionalità da varie fonti di dati utilizzando oltre 300 trasformazioni di dati integrate senza scrivere alcun codice. Puoi archiviare funzionalità standardizzate in Amazon SageMaker Feature Store per consentirne il riutilizzo e la condivisione con il resto dell'organizzazione.

Ridurre gli attriti nel percorso del cliente è essenziale per evitare il tasso di abbandono dei clienti. Per aggiungere intelligenza al tuo contact center, puoi creare chatbot conversazionali basati sull'intelligenza artificiale utilizzando le funzionalità di ASR riconoscimento vocale automatico () e comprensione del linguaggio naturale () di Amazon Lex. NLU I clienti possono eseguire attività self-service come la reimpostazione della password, il controllo del saldo dell'account e la pianificazione degli appuntamenti tramite chatbot senza parlare con gli agenti umani. Per automatizzare le domande frequenti del contact center (FAQs), puoi creare un chatbot di domande e risposte (Q&A) con Amazon Lex e Amazon Kendra. L'abilitazione della registrazione di testo in Amazon CloudWatch Logs e il salvataggio degli input audio in S3 ti consentono di analizzare il flusso di conversazione, migliorare la progettazione della conversazione e aumentare il coinvolgimento degli utenti.

Comprendere le dinamiche chiamante-agente è essenziale per migliorare la qualità complessiva del servizio. Consulta questo blog su come trasmettere le registrazioni vocali su Amazon Transcribetramite Kinesis Video Stream per il riconoscimento vocale, trasformare l'audio in testo ed eseguire analisi del sentiment sulle trascrizioni utilizzando Amazon Comprehend.

Per le organizzazioni con una presenza internazionale, puoi creare un'esperienza vocale multilingue in Amazon Connect utilizzando Amazon Polly o Amazon Translate per la traduzione linguistica.

Il software di pianificazione finanziaria tradizionale crea previsioni basate su dati storici di serie temporali senza correlare tendenze incoerenti e variabili rilevanti. Amazon Forecast offre una precisione fino al 50% superiore utilizzando l'apprendimento automatico per scoprire la relazione sottostante tra i dati delle serie temporali e altre variabili come le caratteristiche dei prodotti e le ubicazioni dei negozi. Senza alcuna esperienza di machine learning richiesta, puoi creare facilmente una previsione della domanda o dell'inventario degli agenti fornendo serie temporali e dati associati nel tuo bucket S3 ad Amazon Forecast. Puoi crittografare i contenuti riservati utilizzando AWS KMS e controllare l'accesso ad Amazon Forecast utilizzando IAM la policy. Amazon Forecast addestra e ospita un modello di machine learning personalizzato in un ambiente ad alta disponibilità. Puoi generare rapidamente previsioni aziendali estremamente accurate senza gestire alcuna infrastruttura o un complesso processo di apprendimento automatico.

Amazon Connect fornisce gli attributi delle chiamate degli operatori di telefonia, come la posizione geografica delle apparecchiature vocali per mostrare da dove proviene la chiamata, i tipi di dispositivi telefonici come rete fissa o mobile, il numero di segmenti di rete attraversati dalla chiamata e altre informazioni sull'origine delle chiamate. Utilizzando Amazon Fraud Detector completamente gestito, puoi creare un modello di machine learning per identificare attività potenzialmente fraudolente combinando i tuoi set di dati con gli attributi delle chiamate di Amazon Connect. Ad esempio, puoi personalizzare il flusso di contatti per indirizzare in modo intelligente le telefonate con potenziali segnali di frode a un agente specializzato.