Lac de données Accès aux données Mode d'accès hybride Plan Flux de travail Catalogue de données Données sous-jacentes Principal Administrateur du lac de données

Terminologie des Lake Formation

Voici quelques termes importants que vous rencontrerez dans ce guide.

Lac de données

Le lac de données correspond à vos données persistantes stockées dans Amazon S3 et gérées par Lake Formation à l'aide d'un catalogue de données. Un lac de données stocke généralement les éléments suivants :

Données structurées et non structurées
Données brutes et données transformées

Pour qu'un chemin Amazon S3 se trouve dans un lac de données, il doit être enregistré auprès de Lake Formation.

Accès aux données

Lake Formation fournit un accès sécurisé et granulaire aux données grâce à un nouveau modèle d'accord/de révocation des autorisations qui renforce les politiques (IAM). AWS Identity and Access Management

Les analystes et les data scientists peuvent utiliser le portefeuille complet de services d' AWS analyse et d'apprentissage automatique, tels qu'Amazon Athena, pour accéder aux données. Les politiques de sécurité configurées de Lake Formation permettent de garantir que les utilisateurs ne peuvent accéder qu'aux données auxquelles ils sont autorisés à accéder.

Mode d'accès hybride

Le mode d'accès hybride vous permet de sécuriser et d'accéder aux données cataloguées à l'aide des autorisations Lake Formation et des autorisations IAM et Amazon S3. Le mode d'accès hybride permet aux administrateurs de données d'intégrer les autorisations de Lake Formation de manière sélective et progressive, en se concentrant sur un cas d'utilisation de lac de données à la fois.

Plan

Un plan est un modèle de gestion des données qui vous permet d'ingérer facilement des données dans un lac de données. Lake Formation fournit plusieurs plans, chacun correspondant à un type de source prédéfini, tel qu'une base de données relationnelle ou AWS CloudTrail des journaux. À partir d'un plan, vous pouvez créer un flux de travail. Les flux de travail se composent de AWS Glue robots d'exploration, de tâches et de déclencheurs générés pour orchestrer le chargement et la mise à jour des données. Les plans utilisent la source de données, la cible de données et le calendrier comme entrées pour configurer le flux de travail.

Flux de travail

Un flux de travail est un conteneur pour un ensemble de AWS Glue jobs, crawlers et déclencheurs. Vous créez le flux de travail dans Lake Formation, qui s'exécute dans AWS Glue service. Lake Formation peut suivre l'état d'un flux de travail en tant qu'entité unique.

Lorsque vous définissez un flux de travail, vous sélectionnez le plan sur lequel il est basé. Vous pouvez ensuite exécuter des flux de travail à la demande ou selon un calendrier.

Les flux de travail que vous créez dans Lake Formation sont visibles dans le AWS Glue console sous forme de graphe acyclique dirigé (DAG). À l'aide du DAG, vous pouvez suivre la progression du flux de travail et résoudre les problèmes.

Catalogue de données

Le catalogue de données est votre magasin de métadonnées permanent. Il s'agit d'un service géré qui vous permet de stocker, d'annoter et de partager des métadonnées dans le AWS cloud de la même manière que vous le feriez dans un métastore Apache Hive. Il fournit un référentiel uniforme dans lequel des systèmes disparates peuvent stocker et trouver des métadonnées pour suivre les données dans des silos de données, puis utiliser ces métadonnées pour interroger et transformer les données. Lake Formation utilise le AWS Glue Catalogue de données pour stocker les métadonnées relatives aux lacs de données, aux sources de données, aux transformations et aux cibles.

Les métadonnées relatives aux sources de données et aux cibles se présentent sous forme de bases de données et de tables. Les tables stockent des informations de schéma, des informations de localisation, etc. Les bases de données sont des ensembles de tables. Lake Formation fournit une hiérarchie d'autorisations pour contrôler l'accès aux bases de données et aux tables du catalogue de données.

Chaque AWS compte possède un catalogue de données par AWS région.

Données sous-jacentes

Les données sous-jacentes font référence aux données sources ou aux données des lacs de données vers lesquels pointent les tables du catalogue de données.

Principal

Un principal est un utilisateur ou un rôle AWS Identity and Access Management (IAM) ou un utilisateur Active Directory.

Administrateur du lac de données

Un administrateur de lac de données est un mandant qui peut accorder à n'importe quel principal (y compris lui-même) n'importe quelle autorisation sur n'importe quelle ressource du catalogue de données ou sur l'emplacement des données. Désignez un administrateur de lac de données comme premier utilisateur du catalogue de données. Cet utilisateur peut ensuite accorder des autorisations plus détaillées sur les ressources à d'autres principaux.

Note

Les utilisateurs administratifs IAM, c'est-à-dire les utilisateurs dotés de la politique AdministratorAccess AWS gérée, ne sont pas automatiquement des administrateurs de lacs de données. Par exemple, ils ne peuvent pas accorder d'autorisations Lake Formation sur les objets du catalogue à moins d'en avoir obtenu l'autorisation. Ils peuvent toutefois utiliser la console ou l'API Lake Formation pour se désigner comme administrateurs de lacs de données.

Pour plus d'informations sur les fonctionnalités d'un administrateur de lac de données, consultezPermissions implicites de Lake Formation. Pour plus d'informations sur la désignation d'un utilisateur en tant qu'administrateur de data lake, consultez. Création d'un administrateur de lac de données

Avertissement JavaScript est désactivé ou n'est pas disponible dans votre navigateur.

Pour que vous puissiez utiliser la documentation AWS, Javascript doit être activé. Vous trouverez des instructions sur les pages d'aide de votre navigateur.

Conventions de rédaction

Composantes de la Lake Formation

AWS intégrations de services avec Lake Formation