本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。
Amazon Redshift Spectrum 中外部資料湖資料表的具體化視觀表
具體化視觀表可為外部資料湖資料表提供增量維護。透過增量維護,Amazon Redshift 只會更新自上次重新整理以來基礎資料表中資料的變更,以更新具體化檢視中的資料。增量維護比在基礎資料表上的每次資料變更後完全重新計算具體化視觀表更具成本效益。
當您在至少一個外部資料表上使用具體化視觀表時,具體化視觀表的建立會遞增:
-
標準資料湖資料表,已分割和未分割,具有任何支援格式的資料檔案 (Parquet、Avro、CSV 等)。
-
Apache Iceberg 資料表,已分割和未分割,具有copy-on-write和merge-on-read。
-
Amazon Redshift Spectrum 資料表與相同資料庫中的任何 Amazon Redshift 資料表聯結。
具體化視觀表重新整理在下列項目上是增量的:
-
如果具體化檢視未執行彙總,則 S3 DELETE 或 PUT 覆寫 (刪除資料檔案) 之後的標準資料湖資料表。
-
INSERT、DELETE、UPDATE 或資料表壓縮後的 Apache Iceberg 資料表。
如需 Amazon Redshift Spectrum 的詳細資訊,請參閱Amazon Redshift Spectrum。
限制
具體化視觀表的一般限制仍然適用於資料湖資料表上的具體化視觀表。如需詳細資訊,請參閱重新整理具體化視觀表。此外,當您在外部資料湖資料表上使用具體化視觀表時,請考慮以下限制。
-
具體化視觀表建立在下列項目上是非增量的:
-
Hudi 或 Delta Lake 資料表。
-
Spectrum 巢狀資料存取。
-
VARBYTE 資料欄的參考。
-
-
具體化視觀表重新整理會回到完全重新運算:
-
如果具體化檢視執行彙總,則所需的快照過期時 Apache Iceberg 資料表。
-
如果具體化檢視執行彙總,則在刪除或更新 Amazon S3 上的資料檔案之後的標準資料湖資料表。
-
標準資料湖資料表在交易區塊中重新整理多次。
-
由資訊清單管理的標準資料湖資料表。如需資訊清單的詳細資訊,請參閱使用資訊清單來指定資料檔案。
-
如果預期這會更高效能,Amazon Redshift 會恢復完整重新計算,特別是對於包含聯結且自上次重新整理以來已更新多個基礎資料表的具體化視觀表。
-
-
在 Apache Iceberg 資料表上,具體化檢視重新整理最多只能處理單一資料檔案中刪除的 400 萬個位置。一旦達到此限制,Apache Iceberg 基礎資料表必須壓縮,才能繼續重新整理具體化視觀表。
-
在 Apache Iceberg 資料表上,並行擴展不支援具體化檢視的建立和重新整理。
-
重新整理增量具體化檢視時,IAM 許可僅適用於 Amazon Redshift 基礎資料表的存取部分。
-
查詢具體化檢視時,不會驗證 Lake Formation 所管理之許可的變更。這表示,如果在資料湖資料表上定義具體化檢視,並從具有 Lake Formation 的資料表中移除選取的權限,您仍然可以查詢具體化檢視。