Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.
Défis courants en matière de mise
Un lac de données passe par plusieurs étapes lorsque ses données augmentent après le déploiement initial. Si vous n'avez pas utilisé d'architecture évolutive pour concevoir votre lac de données, votre entreprise risque de rencontrer des difficultés et d'être désavantagée par la croissance du lac de données.
Les sections suivantes expliquent comment la croissance d'un lac de données typique peut entraîner des problèmes de mise à l'échelle.
Déploiement initial du lac de données
Le schéma suivant montre l'architecture d'un lac de données après son déploiement initial par le secteur d'activité A.

Le schéma montre les composants suivants :
-
Le compte du producteur de données collecte et traite les données, stocke les données traitées et les prépare pour la consommation.
-
Les données du compte du producteur de données sont stockées dans des compartiments Amazon Simple Storage Service (Amazon S3), qui peuvent comporter plusieurs couches de données.
-
Vous pouvez utiliser AWS des services pour le traitement des données (par exemple, AWS GlueAmazon EMR).
-
Le producteur de données produit et stocke non seulement des données dans le lac de données, mais doit également décider quelles données partager avec un consommateur de données et comment les partager. AWS Lake Formation gère le lac de données dans le compte du producteur de données, en plus de gérer le partage de données entre comptes entre le producteur de données et le consommateur de données.
-
Le compte consommateur de données consomme les données partagées du compte producteur de données pour des cas d'utilisation professionnels spécifiques.
Les consommateurs de données augmentent
Le schéma suivant montre que davantage de données sont introduites dans le lac de données lorsque les données du secteur d'activité A augmentent. Le lac de données attire alors davantage de consommateurs de données pour tirer parti des données et en tirer parti.

Le diagramme montre comment une organisation génère de la valeur quasi continue à partir d'un actif de données existant et montre que cela attire davantage de consommateurs de données. Toutefois, lorsque le nombre de consommateurs de données augmente, le producteur de données ne dispose que des deux options suivantes pour faire face à cette croissance :
-
Gérez manuellement le partage des données et l'accès par les consommateurs de données individuels, ce qui n'est pas une approche évolutive.
-
Développez un processus automatisé ou semi-automatisé pour le partage des données et la gestion de l'accès aux données. Bien que cette option puisse être évolutive, sa conception et sa construction nécessitent beaucoup de temps et d'efforts, car les consommateurs de données internes et externes ont des exigences de contrôle de sécurité différentes. À l'avenir, du temps et des efforts supplémentaires seront également nécessaires pour améliorer les solutions.
Les producteurs de données augmentent
Le schéma suivant montre l'architecture du lac de données lorsque plusieurs secteurs d'activité se rejoignent en tant que producteurs de données.

L'architecture du lac de données devient de plus en plus complexe, même avec seulement trois producteurs de données et trois consommateurs de données.
Chaque producteur de données doit gérer le partage des données et la gestion de l'accès aux données pour plusieurs consommateurs de données. Il n'est pas réaliste de s'attendre à ce que tous les producteurs de données développent un processus automatisé ou semi-automatisé pour le partage des données et la gestion de l'accès aux données. Certains producteurs de données peuvent choisir de ne pas partager leurs données et ainsi éviter des frais de gestion inabordables. De même, chaque consommateur de données doit interagir avec plusieurs producteurs de données pour comprendre leurs différents processus de consommation de données. Cela signifie que les consommateurs de données individuels sont confrontés à des frais de gestion croissants liés à la gestion de différents modèles de partage de données.
Dans de nombreuses entreprises, ce lac de données est source de goulots d'étranglement et ne peut ni croître ni évoluer. Cela peut impliquer que votre entreprise doive repenser et reconstruire son lac de données pour éliminer le goulot d'étranglement, ce qui peut coûter beaucoup de temps, de ressources et d'argent.