Stockage Ingestion Catalogage Sécurité Surveillance Analyse Machine learning

Cycle de vie du lac de données

La création d'un lac de données comporte généralement cinq étapes :

Configuration du stockage
Déplacement de données
Préparation et catalogage des données
Configuration des politiques de sécurité
Rendre les données disponibles pour la consommation

La figure suivante est un schéma d'architecture de haut niveau d'un lac de données de centre de contact Amazon Connect qui s'intègre aux services d'analyse et d'intelligence artificielle et d'apprentissage automatique (AI/ML) d'AWS. La section suivante couvre les scénarios et les services AWS présentés dans cette figure.

Schéma illustrant le lac de données du centre de contact Amazon Connect avec AWS Analytics et les services AI/ML

Lac de données du centre de contact Amazon Connect avec AWS Analytics et services AI/ML

Stockage

Amazon S3 est un service de stockage d'objets qui offre une évolutivité, une disponibilité des données, une sécurité et des performances de pointe. S3 offre une durabilité de 99,999999999 % et une disponibilité de 99,99 % avec une forte cohérence et un stockage de données illimité dans le monde entier. Vous pouvez utiliser la réplication entre régions (CRR) pour copier des données dans des compartiments S3 situés dans plusieurs régions afin de respecter les exigences de conformité réglementaire et de faible latence. S3 adapte automatiquement le débit pour améliorer les performances et l'efficacité opérationnelle.

Les compartiments et objets S3 sont privés, l'accès public par bloc S3 étant activé par défaut pour toutes les régions du monde. Vous pouvez configurer des contrôles d'accès centralisés sur les ressources S3 à l'aide de politiques de compartiment, de politiques AWS Identity and Access Management(IAM) et de listes de contrôle d'accès (ACLs). Vous pouvez évaluer et identifier tous les compartiments accessibles au public à l'aide d'Access Analyzer pour S3. Grâce aux préfixes et au balisage des objets, vous pouvez gérer les contrôles d'accès, la hiérarchisation du stockage et les règles de réplication au niveau de la granularité au niveau de l'objet.

AWS CloudTrailenregistre chaque appel d'API dans la journalisation des accès au serveur S3. S3 Inventory audite et rapporte l'état de réplication et de chiffrement de vos données.

S3 Intelligent-Tiering permet de réaliser des économies automatiques en déplaçant les données entre les niveaux d'accès fréquents et peu fréquents lorsque les modèles d'accès changent, sans impact sur les performances ni surcharge opérationnelle. S3 Glacier Deep Archive permet d'économiser jusqu'à 95 % sur les coûts de stockage pour les objets rarement consultés qui nécessitent une conservation à long terme.

Le stockage des données dans des formats en colonnes tels qu'Apache Parquet et Optimized Row Columnar (ORC) permet d'accélérer les requêtes et de réduire les coûts de traitement avec Amazon Athena. Les options de compression telles que Snappy with Parquet réduisent les besoins en capacité et les coûts de stockage.

Avec S3 Select et S3 Glacier Select, vous pouvez interroger les métadonnées des objets à l'aide d'une expression SQL (Structured Query Language) sans déplacer les objets vers un autre magasin de données.

S3 Batch Operations automatise les opérations en masse sur les objets S3, telles que la mise à jour des métadonnées et des propriétés des objets, l'exécution de tâches de gestion du stockage, la modification des contrôles d'accès et la restauration d'objets archivés depuis S3 Glacier.

Les points d'accès S3 simplifient et regroupent l'accès aux données partagées sur S3 par différentes équipes et applications. Chaque point d'accès est associé à un nom DNS unique pour un seul compartiment. Vous pouvez créer des politiques de contrôle des services (SCPs) pour restreindre les points d'accès à un Amazon Virtual Private Cloud (Amazon VPC) et isoler les données au sein de vos réseaux privés.

S3 Transfer Acceleration permet le transfert de fichiers sur de longues distances entre votre environnement client et les compartiments S3.

À mesure que votre lac de données s'agrandit, S3 Storage Lens fournit une visibilité à l'échelle de l'entreprise sur l'utilisation du stockage d'objets et les tendances en matière d'activité, avec des recommandations pratiques pour réduire les coûts et les frais opérationnels.

Ingestion

AWS fournit un portefeuille complet de services de transfert de données pour transférer vos données existantes vers un lac de données centralisé. Amazon Storage Gateway et AWS Direct Connect peuvent répondre aux besoins de stockage dans le cloud hybride. Pour le transfert de données en ligne, pensez à utiliser AWS DataSync et Amazon Kinesis. Utilisez la famille AWS Snow pour le transfert de données hors ligne.

AWS Storage Gatewayétend vos environnements sur site au stockage AWS en remplaçant les librairies de bandes par du stockage dans le cloud, en fournissant des partages de fichiers basés sur le stockage dans le cloud ou en créant un cache à faible latence pour accéder à vos données dans AWS à partir d'environnements sur site.
AWS Direct Connectétablit une connectivité privée entre vos environnements sur site et AWS afin de réduire les coûts du réseau, d'augmenter le débit et de fournir une expérience réseau cohérente.
AWS DataSync peut transférer des millions de fichiers vers S3, Amazon Elastic File System (Amazon EFS) ou Amazon FSx for Windows File Server tout en optimisant l'utilisation du réseau.
Amazon Kinesis fournit un moyen sécurisé de capturer et de charger des données de streaming dans S3. Amazon Data Firehose est un service entièrement géré qui fournit des données de streaming en temps réel directement à S3. Firehose s'adapte automatiquement au volume et au débit des données de streaming et ne nécessite aucune administration continue. Vous pouvez transformer les données de streaming en utilisant la compression, le chiffrement, le traitement par lots de données ou AWS Lambdales fonctions de Firehose avant de les stocker dans S3. Le chiffrement Firehose prend en charge le chiffrement S3 côté serveur avec (). AWS Key Management ServiceAWS KMS Vous pouvez également chiffrer les données à l'aide de votre clé personnalisée. Firehose peut concaténer et fournir plusieurs enregistrements entrants sous la forme d'un seul objet S3 afin de réduire les coûts et d'optimiser le débit.

AWS Snow Family fournit un mécanisme de transfert de données hors ligne. AWS Snowball Edgefournit un dispositif informatique de pointe portable et robuste pour la collecte, le traitement et la migration des données. Pour le transfert de données à l'échelle de l'exaoctet, vous pouvez utiliser AWS Snowmobile pour déplacer d'importants volumes de données vers le cloud.

DistCpfournit une fonctionnalité de copie distribuée pour déplacer des données dans l'écosystème Hadoop. S3 DisctCp est une extension DistCp optimisée pour le transfert de données entre le système de fichiers distribué Hadoop (HDFS) et S3. Ce blog fournit des informations sur la façon de déplacer des données entre HDFS et S3 à l'aide de S3DistCp.

Catalogage

L'un des défis courants liés à l'architecture d'un lac de données est le manque de surveillance du contenu des données brutes stockées dans le lac de données. Organisations ont besoin de gouvernance, de cohérence sémantique et de contrôles d'accès pour éviter les pièges liés à la création d'un marécage de données sans curation.

AWS Lake Formationpeut gérer l'ingestion de données en AWS Glueclassant automatiquement les données et en stockant les définitions, le schéma et les métadonnées dans un catalogue de données central. Lake Formation intègre des fonctionnalités d'apprentissage automatique pour la déduplication et la recherche d'enregistrements correspondants afin d'améliorer la qualité des données. Pour accélérer les analyses, Lake Formation convertit les données en Apache Parquet et ORC avant de les stocker dans votre lac de données S3. Vous pouvez définir des politiques d'accès, notamment des contrôles d'accès au niveau des tables et des colonnes, ou appliquer le chiffrement des données au repos. Grâce à une mise en œuvre cohérente de la sécurité, vos utilisateurs peuvent accéder à un ensemble de données organisé et centralisé et l'analyser en utilisant les services d'analyse et d'apprentissage automatique de leur choix.

AWS Glue DataBrew, un outil visuel de préparation des données, permet aux propriétaires de données, aux experts en la matière ou aux utilisateurs de toutes compétences de participer au processus de préparation des données. Sans avoir à écrire de code, vos équipes peuvent choisir parmi plus de 250 transformations prédéfinies pour automatiser les tâches de préparation des données, notamment le filtrage des anomalies, la conversion des données dans des formats standard et la correction des valeurs non valides. Les données transformées sont prêtes pour les projets d'analyse avancée et d'apprentissage automatique.

Sécurité

Amazon Connect sépare les données par ID de compte AWS et ID d'instance Amazon Connect afin de garantir un accès autorisé aux données au niveau de l'instance Amazon Connect.

Amazon Connect chiffre les informations personnelles identifiables (PII), les données de contact et les profils clients au repos à l'aide d'une clé à durée limitée spécifique à votre instance Amazon Connect. Le chiffrement S3 côté serveur sécurise les enregistrements vocaux et de chat au repos à l'aide d'une clé de données KMS unique par compte AWS. Vous maintenez un contrôle de sécurité complet pour configurer l'accès des utilisateurs aux enregistrements d'appels dans votre compartiment S3, y compris le suivi des personnes qui écoutent ou suppriment les enregistrements d'appels. Amazon Connect chiffre les empreintes vocales des clients à l'aide d'une clé KMS appartenant au service afin de protéger l'identité du client. Toutes les données échangées entre Amazon Connect et d'autres services AWS, ou des applications externes, sont toujours chiffrées en transit à l'aide du chiffrement TLS (Transport Layer Security) conforme aux normes du secteur.

La sécurisation d'un lac de données nécessite des contrôles précis pour garantir l'accès et l'utilisation autorisés des données. Les ressources S3 sont privées et ne sont accessibles que par leur propriétaire par défaut. Le propriétaire de la ressource peut créer une combinaison de politiques IAM basées sur les ressources ou basées sur l'identité pour accorder et gérer des autorisations sur les compartiments et les objets S3. Les politiques basées sur les ressources, telles que les politiques relatives aux compartiments, ACLs sont associées aux ressources. En revanche, les politiques basées sur l'identité sont associées aux utilisateurs, groupes ou rôles IAM de votre compte AWS.

Nous recommandons des politiques basées sur l'identité pour la plupart des environnements de lacs de données afin de simplifier la gestion de l'accès aux ressources et les autorisations de service pour les utilisateurs de vos lacs de données. Vous pouvez créer des utilisateurs, des groupes et des rôles IAM dans des comptes AWS et les associer à des politiques basées sur l'identité qui accordent l'accès aux ressources S3.

Le modèle AWS Lake Formation d'autorisation fonctionne conjointement avec les autorisations IAM pour régir l'accès aux lacs de données. Le modèle d'autorisation de Lake Formation utilise un mécanisme GRANT ou REVOKE de type système de gestion de base de données (DBMS). Les autorisations IAM contiennent des politiques basées sur l'identité. Par exemple, un utilisateur doit passer des contrôles d'autorisation par le biais des autorisations IAM et Lake Formation avant d'accéder à une ressource de lac de données.

AWS CloudTrail suit les appels d'API Amazon Connect, y compris l'adresse IP et l'identité du demandeur, ainsi que la date et l'heure de la demande dans l'historique des CloudTrail événements. La création d' AWS CloudTrail un suivi permet de fournir des AWS CloudTrail journaux en continu à votre compartiment S3.

Les groupes de travail Amazon Athena peuvent séparer l'exécution des requêtes et contrôler l'accès des utilisateurs, des équipes ou des applications à l'aide de politiques basées sur les ressources. Vous pouvez renforcer le contrôle des coûts en limitant l'utilisation des données dans les groupes de travail.

Surveillance

L'observabilité est essentielle pour garantir la disponibilité, la fiabilité et les performances d'un centre de contact et d'un lac de données. Amazon CloudWatch fournit une visibilité à l'échelle du système sur l'utilisation des ressources, les performances des applications et la santé opérationnelle. Enregistrez les informations pertinentes issues des flux de contacts Amazon Connect sur Amazon CloudWatch et créez des notifications en temps réel lorsque les performances opérationnelles tombent en dessous des seuils prédéfinis.

Amazon Connect envoie les données d'utilisation de l'instance sous forme de CloudWatch métriques Amazon à une minute d'intervalle. La durée de conservation des données pour Amazon CloudWatch Metrics est de deux semaines. Définissez les exigences de conservation des journaux et les politiques de cycle de vie dès le début pour garantir la conformité réglementaire et réaliser des économies pour l'archivage des données à long terme.

Amazon CloudWatch Logs fournit un moyen simple de filtrer les données des journaux, d'identifier les cas de non-conformité pour les enquêtes sur les incidents et d'accélérer les résolutions. Vous pouvez personnaliser les flux de contacts pour détecter les appelants à haut risque ou les activités potentiellement frauduleuses. Par exemple, vous pouvez déconnecter tous les contacts entrants figurant sur votre liste de refus prédéfinie.

Analyse

Un lac de données de centre de contact basé sur un portefeuille d'analyses descriptives, prédictives et en temps réel vous aide à extraire des informations pertinentes et à répondre aux questions commerciales critiques.

Une fois que vos données arrivent dans le lac de données S3, vous pouvez utiliser tous les services d'analyse spécialement conçus, tels qu'Amazon Athena et Amazon, QuickSight pour un large éventail de cas d'utilisation, sans tâches d'extraction, de transformation et de chargement (ETL) fastidieuses. Vous pouvez également intégrer vos plateformes d'analyse préférées à votre lac de données S3. Consultez ce blog pour découvrir comment analyser les données Amazon Connect avec Amazon Athena AWS Glue et Amazon. QuickSight

Pour une solution d'entrepôt de données hautement évolutive, vous pouvez activer le streaming de données dans Amazon Connect afin de diffuser les enregistrements de contacts vers Amazon Redshift via Amazon Kinesis.

Machine learning

La création d'un lac de données introduit un nouveau paradigme dans l'architecture des centres de contact, permettant à votre entreprise de fournir un service client amélioré et personnalisé à l'aide de fonctionnalités d'apprentissage automatique (ML).

Le développement traditionnel du machine learning est un processus complexe et coûteux. AWS fournit l'étendue et l'étendue d'une infrastructure évolutive, économique et performante, ainsi que des services de machine learning flexibles pour tous les projets ou charges de travail de machine learning.

Amazon SageMaker AI est un service entièrement géré qui permet à vos spécialistes des données et à vos développeurs de créer, de former et de déployer des modèles de machine learning pour des cas d'utilisation de centres d'appels à grande échelle. La préparation des données représente jusqu'à 80 % du temps des data scientists. Amazon SageMaker AI Data Wrangler simplifie et accélère la préparation des données et l'ingénierie des fonctionnalités à partir de diverses sources de données à l'aide de plus de 300 transformations de données intégrées sans écrire de code. Vous pouvez stocker des fonctionnalités standardisées dans l'Amazon SageMaker AI Feature Store pour permettre leur réutilisation et leur partage avec le reste de votre organisation.

Il est essentiel de réduire les frictions dans le parcours client pour éviter la perte de clients. Pour ajouter de l'intelligence à votre centre d'appels, vous pouvez créer des chatbots conversationnels basés sur l'IA à l'aide des fonctionnalités de reconnaissance vocale automatique (ASR) et de compréhension du langage naturel (NLU) d'Amazon Lex. Les clients peuvent effectuer des tâches en libre-service telles que la réinitialisation du mot de passe, la vérification du solde du compte et la prise de rendez-vous via des chatbots sans parler aux agents humains. Pour automatiser les questions fréquemment posées du centre de contact (FAQs), vous pouvez créer un chatbot de questions-réponses avec Amazon Lex et Amazon Kendra. L'activation de l'enregistrement de texte dans Amazon CloudWatch Logs et l'enregistrement des entrées audio dans S3 vous permettent d'analyser le flux de conversation, d'améliorer la conception des conversations et d'accroître l'engagement des utilisateurs.

Comprendre la dynamique appelant-agent est essentiel pour améliorer la qualité globale du service. Consultez ce blog pour découvrir comment diffuser des enregistrements vocaux sur Amazon Transcribe via Kinesis Video Stream pour la reconnaissance vocale, transformer le son en texte et analyser les sentiments sur les transcriptions à l'aide d'Amazon Comprehend.

Pour les entreprises présentes à l'international, vous pouvez créer une expérience vocale multilingue dans Amazon Connect en utilisant Amazon Polly ou Amazon Translate pour la traduction linguistique.

Les logiciels de planification financière traditionnels créent des prévisions basées sur des données chronologiques historiques sans corréler les tendances incohérentes et les variables pertinentes. Amazon Forecast fournit une précision jusqu'à 50 % supérieure grâce à l'apprentissage automatique pour découvrir la relation sous-jacente entre les données de séries chronologiques et d'autres variables telles que les caractéristiques des produits et l'emplacement des magasins. Aucune expérience d'apprentissage automatique n'étant requise, vous pouvez facilement créer une prévision de la demande ou des stocks pour les agents en fournissant des séries chronologiques et les données associées dans votre compartiment S3 à Amazon Forecast. Vous pouvez chiffrer le contenu confidentiel à l'aide d'Amazon Forecast AWS KMS et contrôler l'accès à celui-ci à l'aide de la politique IAM. Amazon Forecast forme et héberge un modèle de machine learning personnalisé dans un environnement hautement disponible. Vous pouvez générer rapidement des prévisions commerciales très précises sans gérer d'infrastructure ou de processus d'apprentissage automatique complexe.

Amazon Connect fournit les attributs des appels fournis par les opérateurs de téléphonie, tels que l'emplacement géographique de l'équipement vocal pour indiquer l'origine de l'appel, les types d'appareils téléphoniques tels que les lignes fixes ou mobiles, le nombre de segments de réseau traversés par l'appel et d'autres informations relatives à l'origine de l'appel. À l'aide de l'outil entièrement géré Amazon Fraud Detector, vous pouvez créer un modèle de machine learning pour identifier les activités potentiellement frauduleuses en combinant vos ensembles de données avec les attributs d'appel Amazon Connect. Par exemple, vous pouvez personnaliser le flux de contacts pour acheminer intelligemment les appels téléphoniques contenant des signaux de fraude potentiels vers un agent spécialisé.

Avertissement JavaScript est désactivé ou n'est pas disponible dans votre navigateur.

Pour que vous puissiez utiliser la documentation AWS, Javascript doit être activé. Vous trouverez des instructions sur les pages d'aide de votre navigateur.

Conventions de rédaction

Types de données

Conclusion et lectures complémentaires