Data lake Acesso aos dados Modo de acesso híbrido Blueprint Fluxo de trabalho catálogo de dados Dados subjacentes Entidade principal Administrador do data lake

Terminologia do Lake Formation

A seguir estão alguns termos importantes que você encontrará neste guia.

Data lake

O data lake são seus dados persistentes que são armazenados no Amazon S3 e gerenciados pelo Lake Formation usando um catálogo de dados. Um data lake normalmente armazena o seguinte:

Dados estruturados e não estruturados
Dados brutos e dados transformados

Para que um caminho do Amazon S3 esteja dentro de um data lake, ele deve ser registrado com o Lake Formation.

Acesso aos dados

O Lake Formation fornece acesso seguro e granular aos dados por meio de um novo modelo de conceção/revogação de permissões que amplia AWS Identity and Access Management as políticas (IAM).

Analistas e cientistas de dados podem usar o portfólio completo de serviços AWS analíticos e de aprendizado de máquina, como o Amazon Athena, para acessar os dados. As políticas de segurança configuradas do Lake Formation ajudam a garantir que os usuários possam acessar somente os dados que estão autorizados a acessar.

Modo de acesso híbrido

O modo de acesso híbrido permite proteger e acessar os dados catalogados usando as permissões do Lake Formation e as permissões do IAM e do Amazon S3. O modo de acesso híbrido permite que os administradores de dados integrem as permissões do Lake Formation de forma seletiva e incremental, concentrando-se em um caso de uso do data lake por vez.

Blueprint

Um esquema é um modelo de gerenciamento de dados que permite a ingestão fácil de dados em um data lake. O Lake Formation fornece vários esquemas, cada um para um tipo de fonte predefinido, como um banco de dados relacional ou registros. AWS CloudTrail A partir de um esquema, você pode criar um fluxo de trabalho. Os fluxos de trabalho consistem em AWS Glue rastreadores, trabalhos e acionadores que são gerados para orquestrar o carregamento e a atualização dos dados. Os esquemas usam a fonte de dados, o destino dos dados e o cronograma como entrada para configurar o fluxo de trabalho.

Fluxo de trabalho

Um fluxo de trabalho é um contêiner para um conjunto de itens relacionados AWS Glue trabalhos, rastreadores e gatilhos. Você cria o fluxo de trabalho no Lake Formation e ele é executado no AWS Glue serviço. O Lake Formation pode rastrear o status de um fluxo de trabalho como uma entidade única.

Ao definir um fluxo de trabalho, você seleciona o esquema no qual ele se baseia. Em seguida, você pode executar fluxos de trabalho sob demanda ou de acordo com um cronograma.

Os fluxos de trabalho que você cria no Lake Formation são visíveis no AWS Glue console como um gráfico acíclico direcionado (DAG). Ao usar o DAG, você pode acompanhar o andamento do fluxo de trabalho e solucionar o problema.

catálogo de dados

O catálogo de dados é seu armazenamento de metadados persistente. É um serviço gerenciado que permite armazenar, anotar e compartilhar metadados na AWS nuvem da mesma forma que você faria em uma metastore do Apache Hive. Ele fornece um repositório uniforme onde sistemas diferentes podem armazenar e encontrar metadados para rastrear dados em silos de dados e, em seguida, usar esses metadados para consultar e transformar os dados. Lake Formation usa o AWS Glue Catálogo de dados para armazenar metadados sobre lagos de dados, fontes de dados, transformações e destinos.

Os metadados sobre fontes e destinos de dados estão na forma de bancos de dados e tabelas. As tabelas armazenam informações de esquemas, localização e muito mais. Bancos de dados são coleções de tabelas. O Lake Formation fornece uma hierarquia de permissões para controlar o acesso a bancos de dados e tabelas no catálogo de dados.

Cada AWS conta tem um catálogo de dados por AWS região.

Dados subjacentes

Os dados subjacentes se referem aos dados de origem ou aos dados dentro dos data lakes para os quais as tabelas do catálogo de dados apontam.

Entidade principal

Um principal é um usuário ou uma função AWS Identity and Access Management (IAM) ou um usuário do Active Directory.

Administrador do data lake

Um administrador de data lake é uma entidade principal que pode conceder a qualquer entidade principal (inclusive a si mesmo) qualquer permissão em qualquer recurso ou local de dados do catálogo de dados. Designe um administrador de data lake como o primeiro usuário do catálogo de dados. Esse usuário pode, então, conceder permissões mais granulares de recursos a outras entidades principais.

nota

Os usuários administrativos do IAM — usuários com a política AdministratorAccess AWS gerenciada — não são automaticamente administradores de data lake. Por exemplo, eles não podem conceder permissões do Lake Formation em objetos do catálogo, a menos que tenham recebido permissão para fazer isso. No entanto, eles podem usar o console ou a API do Lake Formation para se designarem como administradores do data lake.

Para obter informações sobre os recursos de um administrador de data lake, consulte Permissões implícitas do Lake Formation. Para obter informações sobre como designar um usuário como administrador de data lake, consulte Crie um administrador de data lake.

Atenção O Javascript está desativado ou não está disponível no seu navegador.

Para usar a documentação da AWS, o Javascript deve estar ativado. Consulte as páginas de Ajuda do navegador para obter instruções.

Convenções do documento

Componentes do Lake Formation

AWS integrações de serviços com Lake Formation