Aceleración del descubrimiento de datos con Metadatos de S3 - Amazon Simple Storage Service

Aceleración del descubrimiento de datos con Metadatos de S3

Metadatos de Amazon S3 acelera el descubrimiento de datos al capturar automáticamente metadatos para los objetos en los buckets de uso general y almacenarlos en tablas de Apache Iceberg de solo lectura, totalmente administradas y que usted puede consultar. Estas tablas de solo lectura se denominan tablas de metadatos. A medida que se agregan, actualizan o eliminan objetos de los buckets de uso general, Metadatos de S3 actualiza automáticamente las tablas de metadatos correspondientes para reflejar los últimos cambios.

De forma predeterminada, Metadatos de S3 proporciona tres tipos de metadatos:

  • Metadatos definidos por el sistema, como la hora de creación y la clase de almacenamiento de un objeto

  • Metadatos personalizados, como etiquetas y metadatos definidos por el usuario que se han incluido al cargar el objeto

  • Metadatos de eventos, por ejemplo, cuando se actualiza o elimina un objeto, y la Cuenta de AWS que realizó la solicitud

Con Metadatos de S3, puede encontrar, almacenar y consultar metadatos fácilmente para los objetos de S3, de modo que pueda preparar rápidamente datos para usarlos en análisis empresariales, recuperación de contenido, entrenamiento de modelos de inteligencia artificial y machine learning (AI/ML), etc.

Para cada bucket de uso general, puede crear una configuración de tabla de metadatos que contenga dos tablas de metadatos complementarias:

  • Tabla de diario: de forma predeterminada, la configuración de la tabla de metadatos contiene una tabla de diario, que captura los eventos que se producen en los objetos del bucket. En la tabla de diario se registran los cambios realizados en los datos casi en tiempo real, lo que lo ayuda a identificar los nuevos datos cargados en el bucket, realizar un seguimiento de los objetos eliminados recientemente, supervisar las transiciones del ciclo de vida y mucho más. La tabla de diario registra los objetos nuevos y las actualizaciones de los objetos y los metadatos (las actualizaciones que requieren una operación PUT o DELETE).

    La tabla de diario captura metadatos solo para eventos de cambio (como cargas, actualizaciones y eliminaciones) que se producen después de crear la configuración de la tabla de metadatos. Como esta tabla se puede consultar, puede auditar los cambios del bucket mediante simples consultas SQL.

    La tabla de diario es necesaria para cada configuración de tabla de metadatos. (En la versión inicial de Metadatos de S3, la tabla de diario se denominaba “tabla de metadatos”).

    Para obtener más información sobre los datos que se almacenan en las tablas de diario, consulte Esquema de tablas de diario de Metadatos de S3.

    Para ayudarlo a minimizar los costos de almacenamiento, puede habilitar la caducidad de los registros de la tabla de diario. Para obtener más información, consulte Caducidad de los registros de la tabla de diario.

  • Tabla de inventario en directo: opcionalmente, puede agregar una tabla de inventario en directo a la configuración de la tabla de metadatos. La tabla de inventario en directo proporciona un inventario sencillo y consultable de todos los objetos y las versiones en el bucket para que pueda determinar el estado más reciente de los datos.

    Puede utilizar la tabla de inventario en directo para simplificar y acelerar los flujos de trabajo empresariales y los trabajos de macrodatos mediante la identificación de los objetos que desea procesar para diversas cargas de trabajo. Por ejemplo, puede consultar la tabla de inventario en directo para buscar todos los objetos almacenados en una clase de almacenamiento concreta, todos los objetos con determinadas etiquetas, todos los objetos sin el cifrado del servidor mediante claves de AWS Key Management Service (AWS KMS) (SSE-KMS), etc.

    Cuando habilita la tabla de inventario en directo para la configuración de la tabla de metadatos, la tabla se somete a un proceso conocido como reposición, durante el cual Amazon S3 analiza el bucket de uso general para recuperar los metadatos iniciales de todos los objetos que existen en el bucket. Según el número de objetos del bucket, este proceso puede durar unos minutos (mínimo 15 minutos) o varias horas. Una vez finalizado el proceso de reposición, el estado de la tabla de inventario en directo cambia de Reposición a Activo. Una vez finalizada la reposición, las actualizaciones de los objetos suelen reflejarse en la tabla de inventario en directo en el plazo de una hora.

    Se le cobra por la reposición de la tabla de inventario. Si el bucket de uso general tiene más de mil millones de objetos, también se le cobrará una cuota mensual por la tabla de inventario en directo. Para obtener más información, consulte Precios de Amazon S3.

    Para obtener más información sobre los datos que se almacenan en las tablas de inventario en directo, consulte Esquema de las tablas de inventario en directo de Metadatos de S3.

Las tablas de metadatos se almacenan en un bucket de tablas de S3 administradas de AWS, que proporciona almacenamiento optimizado para datos tabulares. Para consultar los metadatos, puede integrar el bucket de tablas con Amazon SageMaker Lakehouse. Esta integración, que utiliza AWS Glue Data Catalog y AWS Lake Formation, permite a los servicios de análisis de AWS detectar automáticamente los datos de la tabla y acceder a ellos.

Una vez que el bucket de tablas esté integrado con AWS Glue Data Catalog, podrá consultar directamente las tablas de metadatos con servicios de análisis de AWS como Amazon Athena, Amazon EMR y Amazon Redshift. También puede crear paneles interactivos con los datos de consulta mediante Amazon QuickSight. Para obtener más información sobre la integración del bucket de tablas de S3 administradas de AWS con Amazon SageMaker Lakehouse, consulte Integración de tablas de Amazon S3 con servicios de análisis de AWS.

También puede consultar las tablas de metadatos con Apache Spark, Apache Trino y cualquier aplicación que admita el formato de Apache Iceberg mediante el punto de conexión REST de Iceberg de AWS Glue, el punto de conexión REST de Iceberg de Tablas de Amazon S3 o el catálogo de Tablas de Amazon S3 para el catálogo de clientes de Apache Iceberg. Para obtener más información sobre el acceso a las tablas de metadatos, consulte Acceso a los datos de tablas.

Para conocer los precios de Metadatos de S3, consulte Precios de Amazon S3.

Cómo funcionan las tablas de metadatos

Las tablas de metadatos las administra Amazon S3 y no las puede modificar ninguna entidad principal de IAM fuera de Amazon S3. Sin embargo, puede eliminar las tablas de metadatos. Como resultado, las tablas de metadatos son de solo lectura, lo que ayuda a garantizar que reflejen correctamente el contenido del bucket de uso general.

Para generar y almacenar metadatos de objetos en tablas de metadatos administradas de AWS, debe crear una configuración de tablas de metadatos para el bucket de uso general. Amazon S3 se ha diseñado para actualizar continuamente las tablas de metadatos y reflejar los últimos cambios realizados en los datos siempre y cuando la configuración esté activa en el bucket de uso general.

Antes de crear una configuración de tabla de metadatos, asegúrese de que tiene los permisos de AWS Identity and Access Management (IAM) necesarios para crear y administrar tablas de metadatos. Para obtener más información, consulte Configuración de permisos para configurar tablas de metadatos.

Almacenamiento, organización y cifrado de las tablas de metadatos

Al crear la configuración de las tablas de metadatos, estas se almacenan en un bucket de tablas administradas de AWS. Todas las configuraciones de tabla de metadatos de la cuenta y de la misma región se almacenan en un único bucket de tablas administradas de AWS. Estos buckets de tablas administradas de AWS se denominan aws-s3 y tienen el siguiente formato de nombre de recurso de Amazon (ARN):

arn:aws:s3tables:region:account_id:bucket/aws-s3

Por ejemplo, si el ID de cuenta es 123456789012 y el bucket de uso general está en Este de EE. UU. (Norte de Virginia) (us-east-1), el bucket de tablas administradas de AWS también se crea en Este de EE. UU. (Norte de Virginia) (us-east-1) y tiene el siguiente ARN:

arn:aws:s3tables:us-east-1:123456789012:bucket/aws-s3

De forma predeterminada, a los buckets de tablas administradas de AWS se les aplica el cifrado del servidor con claves administradas por Amazon S3 (SSE-S3). Después de crear la primera configuración de metadatos, puede establecer en la configuración de cifrado predeterminada para el bucket de tablas administradas de AWS que utilice el cifrado del servidor con claves de AWS Key Management Service (AWS KMS) (SSE-KMS). Para obtener más información, consulte Cifrado para buckets de tablas administradas de AWS y Especificación del cifrado del servidor con claves de AWS KMS (SSE-KMS) en buckets de tablas.

Dentro del bucket de tablas administradas de AWS, las tablas de metadatos de la configuración suelen almacenarse en un espacio de nombres con el siguiente formato de nomenclatura:

b_general-purpose-bucket-name

nota
  • Si el nombre del bucket de uso general contiene puntos, los puntos se convierten en guiones bajos (_) en el nombre del espacio de nombres.

  • Si el bucket de uso general se creó antes del 1 de marzo de 2018, el nombre puede contener mayúsculas y guiones bajos, y también puede tener hasta 255 caracteres. Si el nombre del bucket tiene estas características, el espacio de nombres de la tabla de metadatos tendrá un formato diferente. El nombre del bucket de uso general tendrá como prefijo b_, se truncará a los 63 caracteres, se convertirá a minúsculas y tendrá como sufijo un carácter de almohadilla.

Las tablas de metadatos tienen el siguiente formato de nombre de recurso de Amazon (ARN):

arn:aws:s3tables:region-code:account-id:bucket/aws-s3/table/metadata_table_name

Las tablas de diario se denominan journal y las tablas de inventario en directo, inventory.

Al crear la configuración de las tablas de metadatos, puede cifrar las tablas de metadatos administradas de AWS con cifrado del servidor con las claves de AWS Key Management Service (AWS KMS) (SSE-KMS). Si decide utilizar SSE-KMS, debe proporcionar una clave de KMS administrada por el cliente en la misma región que el bucket de uso general. Solo puede establecer el tipo de cifrado para las tablas durante la creación de estas. Después de crear una tabla administrada de AWS, no se puede cambiar la configuración de cifrado. Para especificar SSE-KMS para las tablas de metadatos, debe tener ciertos permisos. Para obtener más información, consulte Permisos para SSE-KMS.

La configuración de cifrado de una tabla de metadatos tiene prioridad sobre la configuración de cifrado de bucket predeterminada. Si no especifica el cifrado de una tabla, esta heredará la configuración de cifrado predeterminada del bucket.

Los buckets de tablas administradas de AWS no cuentan para las cuotas de Tablas de S3. Para obtener más información sobre cómo trabajar con buckets de tablas administradas de AWS y tablas administradas de AWS, consulte Uso de buckets de tablas administradas de AWS.

Para supervisar las actualizaciones de la configuración de la tabla de metadatos, puede utilizar AWS CloudTrail. Para obtener más información, consulte Acciones de bucket de Amazon S3 de las que realiza un seguimiento el registro de CloudTrail.

Mantenimiento de la tabla de metadatos y caducidad de los registros

Para mantener el mejor rendimiento de las tablas de metadatos de , Amazon S3 realiza actividades de mantenimiento periódicas en las tablas, como la compactación y la eliminación de archivos sin referencias. Estas actividades de mantenimiento ayudan a minimizar el costo de almacenamiento de las tablas de metadatos y a optimizar el rendimiento de las consultas. Este mantenimiento de tablas se realiza automáticamente, por lo que no requiere que participe ni que las administre de forma continua.

nota
  • No puede controlar la caducidad de las instantáneas de la tabla de diario ni de la tabla de inventario. Para cada tabla, Amazon S3 almacena un mínimo de una instantánea durante un máximo de 24 horas.

  • Para ayudar a minimizar los costos, puede configurar la caducidad de los registros de la tabla de diario. De forma predeterminada, los registros de la tabla de diario no caducan y deben retenerse durante un mínimo de siete días. Para obtener más información, consulte Caducidad de los registros de la tabla de diario.