Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.
Architecture des données
Concevez et faites évoluer une architecture de fit-for-purpose données et d'analyse.
Une architecture
L'architecture des données et des analyses est le modèle des capacités d'une organisation à tirer de la valeur des données. Il aide l'organisation à acquérir de nouvelles connaissances commerciales et constitue un catalyseur pour la croissance de l'entreprise. Pour répondre aux besoins de l'entreprise, une architecture de données moderne doit s'aligner sur les objectifs commerciaux à court et à long terme et être propre aux exigences culturelles et contextuelles de l'organisation. Dans le monde d'aujourd'hui, la mise en œuvre et l'adoption réussies d'une architecture de données et d'analyse reposent sur le principe selon lequel les bonnes données, au bon moment, sont mises à la disposition du bon consommateur.
Cet objectif est atteint en planifiant et en organisant la manière dont les actifs de données d'une organisation sont modélisés, physiquement ou logiquement, la manière dont les données sont sécurisées et la manière dont ces modèles de données interagissent les uns avec les autres pour résoudre les problèmes commerciaux, en déduire des modèles inconnus et générer des informations.
Démarrer
Définir la capacité globale
Dans l'environnement commercial actuel, il est essentiel que la plateforme d'analyse de données moderne tire de la valeur des données pour soutenir les différents domaines de l'organisation. Au lieu d'adopter une approche d'architecture de données unique, l'architecture de données moderne
Organiser les zones de données
La manière dont les données sont organisées et stockées pour un accès rapide et facile est un aspect essentiel de l'architecture des données. Cela peut être réalisé en configurant des zones de données personnalisées au sein d'un lac de données. Les zones de données sont classées comme suit :
-
Données brutes collectées à partir de sources hétérogènes
-
Des données sélectionnées et transformées pour répondre aux besoins analytiques de chaque domaine
-
Des data marts basés sur des cas d'utilisation ou des produits pour les besoins de reporting
-
Données exposées à l'extérieur avec contrôles de sécurité et de conformité
Planifier l'agilité et la démocratisation des données
L'efficacité d'une plateforme d'analyse dépend de la rapidité du provisionnement des données ainsi que de la démocratisation des données fournies pour la consommation. L'agilité du provisionnement des données est atteinte par la capacité de l'architecture de données à obtenir et à traiter les données de différentes manières, par exemple en temps réel, en temps quasi réel, par lots, microlots ou hybrides, en fonction du cas d'utilisation. La démocratisation des données est réalisée en définissant des flux de travail de partage des données et de contrôle d'accès qui sont surveillés par des gestionnaires de données. La mise en œuvre d'un marché des données est l'un des moteurs de la démocratisation des données.
Définissez la livraison sécurisée des données
Une architecture de données moderne est une forteresse pour le monde extérieur en matière de sécurité, mais elle permet un accès facile aux employés ou aux utilisateurs de données, selon les fonctions de leur poste, et respecte les restrictions de conformité telles que la loi HIPAA (Health Insurance Portability and Accountability Act)
Plan de rentabilité
Les entrepôts de données traditionnels fournissent des capacités informatiques et de stockage étroitement couplées avec un coût d'utilisation des ressources élevé. Une architecture moderne dissocie le calcul du stockage et met en œuvre un stockage hiérarchisé basé sur le cycle de vie des données. Par exemple, sur AWS, vous pouvez utiliser Amazon Simple Storage Service (Amazon S3) pour contrôler les coûts et dissocier le stockage des données du calcul. Les classes de stockage Amazon S3
Avance
L'architecture de données moderne pourrait être encore améliorée pour élargir l'utilisation des données, qu'il s'agisse d'analyses standard qui soutiennent les fonctions commerciales et opérationnelles ou de fonctionnalités plus complexes qui soutiennent les prévisions et les informations, et contribuent à accélérer la prise de décision. Pour ce faire, l'architecture prend en charge les fonctionnalités décrites dans les sections suivantes.
Comprendre l'ingénierie des fonctionnalités
L'ingénierie des fonctionnalités utilise l'apprentissage automatique et implique la mise en place de magasins de fonctionnalités ou de magasins de fonctionnalités. Les équipes de data science créent de nouvelles fonctionnalités (attributs dérivés) pour les modèles d'apprentissage supervisés et non supervisés et les stockent dans des magasins de fonctionnalités pour simplifier la transformation et améliorer la précision des données. Les entreprises peuvent réutiliser les fonctionnalités dans plusieurs modèles d'analyse, ce qui accélère la mise sur le marché.
Plan de dénormalisation des ensembles de données
La création d'ensembles de données dénormalisés ou de data marts pourrait considérablement simplifier les ensembles de données pour les utilisateurs professionnels en rendant les données requises facilement disponibles en un seul endroit et en augmentant la vitesse des analyses. S'il est conçu avec soin, un enregistrement peut prendre en charge plusieurs modèles d'utilisation et réduire le cycle de vie global du développement. La gouvernance efficace des ensembles de données dénormalisés est également importante pour deux raisons. La mise en œuvre de données dénormalisées pourrait créer un grand nombre d'ensembles de données redondants, ce qui pourrait devenir un défi à gérer à grande échelle. En outre, ces ensembles de données peuvent être de plus en plus difficiles à réutiliser s'ils ne sont pas modélisés correctement.
Portabilité et évolutivité du design
Les grandes entreprises ont rarement toutes leurs applications et tous leurs utilisateurs sur une seule plateforme de données. Leurs applications et leurs magasins de données sont généralement répartis sur d'anciennes plateformes sur site et dans le cloud, ce qui complique le mixage et la fusion des données pour les équipes d'analyse. Nous vous recommandons de conteneuriser les données en fonction de caractéristiques telles que le domaine, la géographie, les cas d'utilisation métier, etc. Cette conteneurisation augmente la portabilité entre les différentes plateformes et applications et permet une consommation plus efficace. La segmentation des données en conteneurs et leur exposition vous APIs permettent de faire évoluer plus facilement votre architecture de données. Il permet le flux de end-to-end données hybride et aide les applications sur site et dans le cloud à fonctionner de manière fluide.
Excel
À mesure qu'une architecture analytique moderne évolue au sein d'une organisation, il est important de gérer ce changement en introduisant des concepts réutilisables. Ces concepts augmentent la durabilité et l'adoption tout en maîtrisant les coûts. Certains des concepts à prendre en compte sont abordés dans les sections suivantes.
Conception d'un framework configurable
Organisations créent souvent de multiples modèles complexes pour répondre à leurs besoins commerciaux uniques. Ces modèles nécessitent la création de plusieurs pipelines de données et de fonctionnalités techniques. Au fil du temps, cela crée une redondance importante et augmente les coûts d'exploitation. La création d'un framework intégrant un ensemble de modèles de base configurables pilotés par des paramètres réduit le temps de développement et les coûts d'exploitation. Le moteur d'analyse peut implémenter ces modèles configurables pour fournir le résultat souhaité.
Planifier la création d'un moteur d'analyse unifié
Les problèmes commerciaux sont uniques et nécessitent souvent des technologies personnalisées pour répondre aux exigences, ce qui se traduit par de multiples moteurs d'analyse dans une organisation. La conception et le développement d'une interface de moteur d'analyse unifiée basée sur l'IA capable de prendre en charge plusieurs paradigmes de programmation simplifient l'utilisation et réduisent les coûts.
Définir DataOps
La plupart des professionnels des données consacrent beaucoup de temps à effectuer des opérations de données telles que la localisation des bonnes données, la transformation, la modélisation, etc. Le fait de disposer d'opérations de données agiles (DataOps) peut considérablement améliorer l'architecture des données en éliminant les silos entre les ingénieurs de données, les scientifiques des données, les propriétaires de données et les analystes. DataOps permet une meilleure communication entre les équipes, réduit le temps de cycle et garantit une qualité de données élevée. Les architectures de données et d'analyse ont subi de nombreuses transformations au fil du temps en raison de l'évolution des besoins commerciaux et des avancées technologiques. Une organisation doit s'efforcer de développer, de mettre en œuvre et de maintenir une architecture de données et d'analyse qui évolue au fil du temps et soutient ses activités.