Consulta de datos de S3 Express One Zone - Amazon Athena

Consulta de datos de S3 Express One Zone

La clase de almacenamiento Amazon S3 Express One Zone es una clase de almacenamiento Amazon S3 de alto rendimiento que proporciona tiempos de respuesta de milisegundos de un solo dígito. Como tal, resulta útil para aplicaciones que acceden a los datos con frecuencia con cientos de miles de solicitudes por segundo.

S3 Express One Zone replica y almacena los datos dentro de la misma zona de disponibilidad para optimizar la velocidad y el costo. Esto difiere de las clases de almacenamiento regional de Amazon S3, que replican automáticamente los datos en un mínimo de tres zonas de disponibilidad de AWS dentro de una Región de AWS.

Para obtener más información, consulte ¿Qué es S3 Express One Zone? en la Guía del usuario de Amazon S3.

Requisitos previos

Antes de comenzar, confirme que se cumplen las siguientes condiciones:

  • Versión 3 del motor Athena: para usar S3 Express One Zone con Athena SQL, su grupo de trabajo debe estar configurado para usar la versión 3 del motor Athena.

  • Permisos de S3 Express One Zone: cuando S3 Express One Zone llama a una acción como GET, LIST o PUT en un objeto de Amazon S3, la clase de almacenamiento llama a CreateSession en su nombre. Por este motivo, su política de IAM debe permitir la acción s3express:CreateSession, lo que permite a Athena invocar la operación de API correspondiente.

Consideraciones y limitaciones

Cuando realice una consulta sobre S3 Express One Zone con Athena, tenga en cuenta los siguientes puntos.

  • Los buckets de S3 Express One Zone solo admiten el cifrado SSE_S3. Los resultados de las consultas de Athena se escriben mediante cifrado SSE_S3, independientemente de la opción que elija en la configuración del grupo de trabajo para cifrar los resultados de las consultas. Esta limitación incluye todos los escenarios en los que Athena escribe datos en buckets de S3 Express One Zone, lo que incluye CREATE TABLE AS (CTAS) y las instrucciones INSERT INTO.

  • El rastreador de AWS Glue no es compatible para crear tablas con datos de S3 Express One Zone.

  • No se admite la instrucción MSCK REPAIR TABLE. Como alternativa, utilice ALTER TABLE ADD PARTITION.

  • ALTER TABLE ADD PARTITION, ALTER TABLE DROP PARTITION y ALTER TABLE RENAME PARTITION no son compatibles con las tablas de Iceberg en S3 Express One Zone.

  • Los siguientes formatos de archivo y tabla no son compatibles o su compatibilidad es limitada. Si los formatos no aparecen en la lista, pero Athena los admite (como Parquet, ORC y JSON), también se admiten para su uso con el almacenamiento S3 Express One Zone.

    Formato de archivo o tabla Limitación
    Apache Avro No compatible
    Registros de CloudTrail No compatible
    Apache Hudi No compatible
    Amazon Ion No compatible
    Registros de Logstash No compatible
    Registros de Apache WebServer No compatible
    Delta Lake DDL no compatible. Para obtener información sobre la creación de una tabla de Delta Lake mediante un esquema ficticio, consulte Sincronización de metadatos de Delta Lake. Se admiten consultas SELECT en la tabla.

Introducción

La consulta de datos de S3 Express One Zone con Athena es sencilla. Para comenzar, siga el procedimiento detallado a continuación.

Utilización de Athena SQL para consultar datos de S3 Express One Zone
  1. Transfiera sus datos al almacenamiento de S3 Express One Zone. Para obtener más información, consulte Configuración de la clase de almacenamiento de un objeto en la Guía del usuario de Amazon S3.

  2. Utilice una instrucción CREATE TABLE en Athena para catalogar sus datos en el AWS Glue Data Catalog. Para obtener más información sobre la creación de tablas en Athena, consulte la instrucción Creación de tablas en Athena y CREATE TABLE.

  3. (Opcional) Configure la ubicación de los resultados de la consulta de su grupo de trabajo de Athena para usar un bucket de directorio de Amazon S3. Los buckets de directorio de Amazon S3 tienen más rendimiento que los buckets generales y están diseñados para cargas de trabajo o aplicaciones de rendimiento crítico que requieren una latencia constante de milisegundos de un solo dígito. Para obtener más información, consulte Información general de los buckets de directorio en la Guía del usuario de Amazon S3.