Formatos de datos para AWS Clean Rooms - AWS Clean Rooms

Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.

Formatos de datos para AWS Clean Rooms

Los conjuntos de datos que se utilizan para las consultas AWS Clean Rooms suelen ser los mismos tipos de conjuntos de datos que se utilizan para otras aplicaciones. Por ejemplo, los mismos tipos de conjuntos de datos se utilizan con Amazon Athena, Amazon EMR, Amazon Redshift Spectrum y Amazon. QuickSight Puede consultar los datos en su formato original directamente desde Amazon Simple Storage Service (Amazon S3).

Para consultar datos, los conjuntos de datos deben estar en un formato compatible. AWS Clean Rooms El bucket de Amazon S3 con los conjuntos de datos y el AWS Clean Rooms clúster deben estar en el mismo Región de AWS lugar.

Formatos de datos admitidos

AWS Clean Rooms admite los siguientes formatos estructurados:

nota

Un valor timestamp de un archivo de texto debe estar en formato yyyy-MM-dd HH:mm:ss.SSSSSS. Por ejemplo: 2017-05-01 11:30:59.000000.

Recomendamos utilizar un formato de archivo de almacenamiento en columnas, como Apache Parquet. Un formato de archivo de almacenamiento en columnas le permite minimizar la transferencia de datos desde Amazon S3 seleccionando únicamente las columnas que necesite. Para obtener un rendimiento óptimo, los objetos grandes deben dividirse en objetos de 100 MB a 1 GB.

Tipos de datos compatibles

Para una experiencia óptima AWS Clean Rooms, todos sus datos deben estar catalogados en AWS Glue. Para obtener más información, consulte la sección titulada Introducción a AWS Glue Data Catalog en la Guía del desarrollador de AWS Glue .

AWS Clean Rooms admite los siguientes tipos AWS Glue Data Catalog de datos:

  • bigint

  • boolean

  • char

  • date

  • decimal

  • double

  • float

  • int

  • Tipos de datos anidados, como:

    • array

    • map

    • struct

  • smallint

  • string

  • timestamp

  • varchar

AWS Clean Rooms no admite:

  • binario

  • intervalo

Tipos de compresión de archivos para AWS Clean Rooms

Para reducir el espacio de almacenamiento, mejorar el rendimiento y minimizar costos, es muy recomendable comprimir los archivos de datos.

AWS Clean Rooms reconoce los tipos de compresión de archivos en función de la extensión del archivo y admite los tipos y extensiones de compresión que se muestran en la tabla siguiente.

Algoritmo de compresión Extensión de archivo
GZIP .gz
Bzip2 .bz2
Snappy .snappy

Puede aplicar compresión a distintos niveles. En la mayoría de los casos, se comprime un archivo completo o se comprimen bloques individuales dentro de un archivo. La compresión de formatos de columna por archivo no ofrece beneficios en términos de rendimiento.

Cifrado del lado del servidor para AWS Clean Rooms

nota

El cifrado en el servidor no reemplaza a la computación criptográfica en los casos de uso en los que esta última es obligatoria.

AWS Clean Rooms descifra de forma transparente los conjuntos de datos cifrados mediante las siguientes opciones de cifrado:

  • SSE-S3: cifrado en el servidor mediante una clave de cifrado AES-256 administrada por Amazon S3

  • SSE-KMS: cifrado del lado del servidor con claves administradas por AWS Key Management Service

Para usar SSE-S3, el rol de AWS Clean Rooms servicio utilizado para asociar la tabla configurada a la colaboración debe tener permisos de descifrado por KMS. Para usar SSE-KMS, la política de claves de KMS también debe permitir que la función de servicio descifre. AWS Clean Rooms

AWS Clean Rooms no admite el cifrado del lado del cliente de Amazon S3. Para obtener más información sobre el cifrado en el servidor, consulte Protección de datos con el cifrado del lado del servidor en la Guía del usuario de Amazon Simple Storage Service.