Aceleración del descubrimiento de datos con Metadatos de S3
Metadatos de Amazon S3 acelera el descubrimiento de datos al capturar automáticamente metadatos para los objetos en los buckets de uso general y almacenarlos en tablas de Apache Iceberg de solo lectura, totalmente administradas y que usted puede consultar. Estas tablas de solo lectura se denominan tablas de metadatos. A medida que se agregan, actualizan y eliminan objetos de los buckets de uso general, Metadatos de S3 actualiza automáticamente las tablas de metadatos correspondientes para reflejar los últimos cambios.
De forma predeterminada, Metadatos de S3 proporciona tres tipos de metadatos:
-
Metadatos definidos por el sistema, como la hora de creación y la clase de almacenamiento de un objeto
-
Metadatos personalizados, como etiquetas y metadatos definidos por el usuario que se han incluido al cargar el objeto
-
Metadatos de eventos, por ejemplo, cuando se actualiza o elimina un objeto, y la Cuenta de AWS que realizó la solicitud
Para obtener detalles sobre qué datos se almacenan en las tablas de metadatos, consulte Esquema de tablas de Metadatos de S3.
Con Metadatos de S3, puede encontrar, almacenar y consultar metadatos fácilmente para los objetos de S3, de modo que pueda preparar rápidamente datos para usarlos en análisis empresariales, recuperación de contenido, entrenamiento de modelos de inteligencia artificial y machine learning (AI/ML), etc.
Las tablas de metadatos se almacenan en buckets de tablas de S3, que proporcionan un almacenamiento optimizado para datos tabulares. Para consultar fácilmente los metadatos, puede integrar el bucket de tablas con AWS Glue Data Catalog. Una vez integrado el bucket de tablas con AWS Glue Data Catalog, podrá consultar directamente las tablas de metadatos con motores de consulta como Amazon Athena, Amazon EMR, Amazon Redshift, Apache Spark y Trino. También puede consultar las tablas de metadatos con cualquier otra aplicación que admita el formato Apache Iceberg. Para crear paneles a partir de las tablas de metadatos, utilice Amazon QuickSight.
Para conocer los precios de Metadatos de S3, consulte Precios de Amazon S3
Cómo funcionan las tablas de metadatos
Las tablas de metadatos las administra Amazon S3 y no las puede modificar ninguna entidad principal de IAM fuera de Amazon S3. (Sin embargo, puede eliminar las tablas de metadatos). Como resultado, las tablas de metadatos son de solo lectura, lo que ayuda a garantizar que reflejen correctamente el contenido del bucket.
Para mantener el mejor rendimiento de las tablas de metadatos de Apache Iceberg, Amazon S3 realiza actividades de mantenimiento periódicas en las tablas, como la compactación y la eliminación de archivos sin referencias. Estas actividades de mantenimiento ayudan a minimizar el costo de almacenamiento de las tablas de metadatos y a optimizar el rendimiento de las consultas. Este mantenimiento de tablas se realiza automáticamente, por lo que no requiere que participe ni que las administre de forma continua. No obstante, si es necesario, puede configurar estas actividades de mantenimiento de las tablas. Para obtener más información, consulte Mantenimiento de buckets de tablas.
nota
Metadatos de S3 se ha diseñado para agregarse continuamente a la tabla de metadatos a medida que realiza cambios en el bucket de uso general. Cada actualización crea una instantánea, es decir, una nueva versión de la tabla de metadatos. Debido a la naturaleza de solo lectura de la tabla de metadatos, no puede eliminar registros en la tabla de metadatos. Tampoco puede utilizar la capacidad de caducidad de instantáneas de Tablas de S3 para hacer caducar instantáneas antiguas de la tabla de metadatos.
Para ayudar a minimizar los costos, puede eliminar periódicamente la configuración de la tabla de metadatos y las tablas de metadatos, y luego volver a crearlas. Para obtener más información, consulte Eliminación de configuraciones de tablas de metadatos y Eliminación de tablas de metadatos.
Para generar y almacenar metadatos de objeto en una tabla de metadatos administrada por S3, debe crear una configuración de tabla de metadatos para el bucket de uso general. Amazon S3 se ha diseñado para actualizar continuamente la tabla de metadatos y reflejar los últimos cambios en los datos, siempre y cuando la configuración esté activa en el bucket.
Para crear una configuración de tabla de metadatos, debe asegurarse de que tiene los permisos de AWS Identity and Access Management (IAM) necesarios para crear y administrar tablas de metadatos. Para obtener más información, consulte Configuración de permisos para configurar tablas de metadatos. También debe crear o especificar un bucket de tablas de S3 para almacenar la tabla de metadatos. Este bucket de tablas debe estar en la misma cuenta y Región de AWS que el bucket de uso general. Para obtener más información sobre cómo crear buckets de tablas, consulte Creación de buckets de tablas.
nota
Metadatos de S3 no se aplica a ningún objeto que ya existiera en el bucket de uso general antes de crear la configuración de la tabla de metadatos. En otras palabras, Metadatos de S3 solo captura metadatos para eventos de cambio (como cargar, actualizar y eliminar) que ocurren después de que haya creado la configuración de la tabla de metadatos.
Para supervisar las actualizaciones de la configuración de la tabla de metadatos, puede utilizar AWS CloudTrail. Para obtener más información, consulte Acciones de bucket de Amazon S3 de las que realiza un seguimiento el registro de CloudTrail.