的数据格式 AWS Clean Rooms - AWS Clean Rooms

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

的数据格式 AWS Clean Rooms

您在中用于查询的数据集 AWS Clean Rooms 通常与用于其他应用程序的数据集类型相同。例如,亚马逊 Athena、亚马逊 EMR、亚马逊 Redshift Spectrum 和亚马逊使用相同类型的数据集。 QuickSight您可以直接从 Amazon Simple Storage Service (Amazon S3) 以数据的原始格式查询数据。

要查询数据,数据集必须采用 AWS Clean Rooms 支持的格式。包含数据集的 Amazon S3 存储桶和集 AWS Clean Rooms 群必须位于同一存储桶中 AWS 区域。

支持的数据格式

AWS Clean Rooms 支持以下结构化格式:

注意

文本文件中的 timestamp 值必须采用 yyyy-MM-dd HH:mm:ss.SSSSSS 格式。例如:2017-05-01 11:30:59.000000

我们建议使用列式存储文件格式(例如 Apache Parquet)。利用列式存储文件格式,您可以通过仅选择所需的列来最大程度地减少 Amazon S3 外部的数据传输。为了获得最佳性能,应将大型对象拆分为 100 MB - 1 GB 的对象。

支持的数据类型

为了获得最佳的使用体验 AWS Clean Rooms,必须将您的所有数据编入其中。 AWS Glue有关更多信息,请参阅《AWS Glue 开发人员指南》中的 AWS Glue Data Catalog入门

AWS Clean Rooms 支持以下 AWS Glue Data Catalog 数据类型:

  • bigint

  • boolean

  • char

  • date

  • decimal

  • double

  • float

  • int

  • 嵌套数据类型,例如:

    • array

    • map

    • struct

  • smallint

  • string

  • timestamp

  • varchar

AWS Clean Rooms 不支持:

  • binary

  • interval

的文件压缩类型 AWS Clean Rooms

要减少存储空间、提高性能和最大程度地降低成本,我们强烈建议您压缩数据集。

AWS Clean Rooms 根据文件扩展名识别文件压缩类型,并支持下表所示的压缩类型和扩展名。

压缩算法 文件扩展名
GZIP .gz
Bzip2 .bz2
Snappy .snappy

可以在不同的级别应用压缩。最常见的情况是,压缩整个文件或压缩文件中的单个块。在文件级压缩列格式不会产生性能优势。

服务器端加密 AWS Clean Rooms

注意

对于需要加密计算的使用案例,服务器端加密并不能取代加密计算。

AWS Clean Rooms 透明地解密使用以下加密选项加密的数据集:

  • SSE-S3 — 使用由 Amazon S3 管理的 AES-256 加密密钥的服务器端加密

  • SSE-KMS — 使用由管理的密钥进行服务器端加密 AWS Key Management Service

要使用 SSE-S3,用于将配置的表与协作关联的 AWS Clean Rooms 服务角色必须具有 KMS-Decrypt 权限。要使用 SSE-KMS,KMS 密钥策略还必须允许 AWS Clean Rooms 服务角色解密。

AWS Clean Rooms 不支持 Amazon S3 客户端加密。有关服务器端加密的更多信息,请参阅《Amazon Simple Storage Service 用户指南》中的使用服务器端加密保护数据