本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。
資料格式 AWS Clean Rooms
若要查詢資料,資料集必須採用 AWS Clean Rooms 支援的格式。包含資料集和 AWS Clean Rooms 叢集的 Amazon S3 儲存貯體必須位於同一個儲存貯體中 AWS 區域。
支援的資料格式
AWS Clean Rooms 支援下列結構化格式:
-
Parquet
-
RCFile
-
TextFile
-
SequenceFile
-
RegexSerde
-
OpenCSV
-
AVRO
-
JSON
注意
文字檔案中的timestamp
值必須是格式yyyy-MM-dd
HH:mm:ss.SSSSSS
。例如:2017-05-01 11:30:59.000000
.
我們建議使用單欄式儲存檔案格式,例如。Apache Parquet使用單欄式儲存檔案格式,您只需選擇所需的資料欄,即可最大幅度地減少 Amazon S3 中的資料傳輸。為了獲得最佳效能,大型物件應該分割成 100mb—1gb 物件。
支援的資料類型
為了獲得最佳體驗 AWS Clean Rooms,您必須將所有資料分類在中 AWS Glue。如需詳細資訊,請參閱開AWS Glue 發人員指南 AWS Glue Data Catalog中標題為開始使用的一節。
AWS Clean Rooms 支援下列 AWS Glue Data Catalog 資料類型:
-
bigint
-
boolean
-
char
-
date
-
decimal
-
double
-
float
-
int
-
嵌套數據類型,例如:
-
array
-
map
-
struct
-
-
smallint
-
string
-
timestamp
-
varchar
AWS Clean Rooms 不支援:
-
binary
-
間隔
的檔案壓縮類型 AWS Clean Rooms
為了減少儲存空間、改善效能並將成本降至最低,我們強烈建議您壓縮資料集。
AWS Clean Rooms 根據檔案副檔名辨識檔案壓縮類型,並支援下表所示的壓縮類型和副檔名。
壓縮演算法 | 副檔名 |
---|---|
GZIP | .gz |
Bzip2 | .bz2 |
Snappy | .snappy |
您可以套用不同層級的壓縮。最常見的是,您可以壓縮整個檔案或壓縮檔案中的個別區塊。在檔案層級壓縮單欄格式並不會產生效能優勢。
伺服器端加密 AWS Clean Rooms
注意
伺服器端加密不會取代需要它的使用案例的密碼編譯運算。
AWS Clean Rooms 透明地解密使用下列加密選項加密的資料集:
-
SSE-S3 — 使用由 Amazon S3 管理的 AES -256 加密金鑰進行伺服器端加密
-
SSE-KMS — 使用管理的金鑰進行伺服器端加密 AWS Key Management Service
若要使用 SSE-S3,用來將已設定的資料表與協同作業相關聯的 AWS Clean Rooms 服務角色必須具有 KMS-decrypt 權限。若要使用 SSE-KMS,KMS金鑰原則也必須允許 AWS Clean Rooms 服務角色解密。
AWS Clean Rooms 不支援 Amazon S3 用戶端加密。如需伺服器端加密的詳細資訊,請參閱 Amazon 簡單儲存服務使用者指南中的使用伺服器端加密保護資料。