Terminología de Lake Formation - AWS Lake Formation

Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.

Terminología de Lake Formation

A continuación se indican algunos términos importantes que encontrará en esta guía.

Lago de datos

El lago de datos son sus datos persistentes almacenados en Amazon S3 y administrados por Lake Formation mediante un Catálogo de datos. En general, un lago de datos almacena lo siguiente:

  • Datos estructurados y no estructurados

  • Datos sin procesar y datos transformados

Para que una ruta de Amazon S3 esté dentro de un lago de datos, debe estar registrada en Lake Formation.

Acceso a los datos

Lake Formation proporciona un acceso seguro y detallado a los datos a través de un nuevo modelo de otorgación/revocación de permisos que amplía las políticas (IAM). AWS Identity and Access Management

Los analistas y los científicos de datos pueden utilizar la cartera completa de servicios AWS analíticos y de aprendizaje automático, como Amazon Athena, para acceder a los datos. Las políticas de seguridad configuradas de Lake Formation ayudan a garantizar que los usuarios solo puedan acceder a los datos para los que están autorizados.

Modo de acceso híbrido

Gracias al modo de acceso Hyrbid, podrá proteger y acceder a los datos catalogados utilizando tanto los permisos de Lake Formation como los de IAM y Amazon S3. El modo de acceso híbrido permite a los administradores de datos incorporar los permisos de Lake Formation de forma selectiva e incremental, centrándose en un caso práctico de lago de datos cada vez.

Esquema

Un esquema es una plantilla de administración de datos que permite incorporar datos fácilmente a un lago de datos. Lake Formation proporciona varios planos, cada uno para un tipo de fuente predefinido, como una base de datos relacional o AWS CloudTrail registros. A partir de un esquema, puede crear un flujo de trabajo. Los flujos de trabajo se componen de AWS Glue rastreadores, tareas y activadores que se generan para organizar la carga y actualización de los datos. Los esquemas toman como entrada el origen de datos, el destino de estos y la programación para configurar el flujo de trabajo.

Flujo de trabajo

Un flujo de trabajo es un contenedor para un conjunto de trabajos de AWS Glue, rastreadores y desencadenantes relacionados. El flujo de trabajo se crea en Lake Formation y se ejecuta en el servicio AWS Glue. Lake Formation puede seguir el estado de un flujo de trabajo como una entidad única.

Cuando define un flujo de trabajo, selecciona el esquema en el que se basa. A continuación, puede ejecutar flujos de trabajo a petición o según un calendario.

Los flujos de trabajo que cree en Lake Formation son visibles en la consola AWS Glue como un gráfico acíclico dirigido (DAG). Utilizando el DAG, puede seguir el progreso del flujo de trabajo y solucionar problemas.

Data Catalog

El Catálogo de datos es su almacén persistente de metadatos. Se trata de un servicio gestionado que permite almacenar, anotar y compartir metadatos en la AWS nube del mismo modo que lo haría en un metaalmacén de Apache Hive. Proporciona un repositorio uniforme donde los sistemas dispares pueden almacenar y encontrar metadatos para rastrear los datos en silos de datos, y luego utilizar esos metadatos para consultar y transformar los datos. Lake Formation utiliza el Catálogo de datos AWS Glue para almacenar metadatos sobre lagos de datos, orígenes de datos, transformaciones y objetivos.

Los metadatos sobre orígenes de datos y objetivos se presentan en forma de bases de datos y tablas. Las tablas almacenan información sobre el esquema, la ubicación, etc. Las bases de datos son colecciones de tablas. Lake Formation proporciona una jerarquía de permisos para controlar el acceso a las bases de datos y tablas del Catálogo de datos.

Cada AWS cuenta tiene un catálogo de datos por región. AWS

Datos subyacentes

Los datos subyacentes se refieren a los datos de origen o datos dentro de los lagos de datos a los que apuntan las tablas del Catálogo de datos.

Entidad principal

Un principal es un usuario o rol AWS Identity and Access Management (de IAM) o un usuario de Active Directory.

Administrador de lago de datos

Un administrador de un lago de datos es una entidad principal que puede conceder a cualquier entidad principal (incluida la propia) permisos sobre cualquier recurso o ubicación de datos del Catálogo de datos. Designe a un administrador del lago de datos como primer usuario del Catálogo de datos. Este usuario puede entonces conceder permisos más específicos de recursos a otras entidades principales.

nota

Los usuarios administrativos de IAM (usuarios con la política AdministratorAccess AWS administrada) no son automáticamente administradores de lagos de datos. Por ejemplo, no pueden conceder permisos de Lake Formation sobre objetos del catálogo a menos que se les hayan concedido permisos para hacerlo. Sin embargo, pueden utilizar la consola de Lake Formation o la API para designarse como administradores del lago de datos.

Para obtener información sobre las capacidades de un administrador de lago de datos, consulte Permisos implícitos de Lake Formation. Para obtener información sobre la designación de un usuario como administrador del lago de datos, consulte Crear un administrador de lago de datos.