使用與 Amazon Redshift 的 Aurora 零 ETL 整合 - Amazon Aurora

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

使用與 Amazon Redshift 的 Aurora 零 ETL 整合

與 Amazon Redshift 的 Aurora 零 ETL 整合可在來自 Aurora 的 PB 級交易資料上使用 Amazon Redshift 啟用近乎即時的分析和機器學習 (ML)。這是一個全受管的解決方案,可讓交易資料寫入 叢集後,在 Amazon Redshift 中使用。擷取、轉換入 (ETL) 是將來自多個來源的資料合併為大型中央資料倉儲的程序。

零 ETL 整合可讓 叢集中的資料以近乎即時的速度在 Amazon Redshift 中使用。資料存放在 Amazon Redshift 之後,您可以使用 Amazon Redshift 的內建功能 (例如機器學習、具體化檢視、資料共用、聯合存取多個資料存放區和資料湖的聯合存取,以及與 Amazon、Amazon SageMaker 等整合),為您的分析、機器學習和 AI 工作負載提供支援。 QuickSight AWS 服務

若要建立零 ETL 整合,請將 叢集指定為來源,並將 Amazon Redshift 資料倉儲指定為目標。整合會將來源資料庫中的資料複寫到目標資料倉儲。

下圖說明此功能。

零 ETL 整合

整合會監控資料管道的運作狀態,並在可能的情況下從問題中復原。您可以從多個 集建立整合到單一 Amazon Redshift 命名空間,以便跨多個應用程式獲得洞見。

如需零 ETL 整合定價的相關資訊,請參閱 Amazon Aurora 定價Amazon Redshift 定價。

優勢

與 Amazon Redshift 的 Aurora 零 ETL 整合具有下列主要優勢:

  • 協助您從多個資料來源衍生整體洞見。

  • 無需建置和維護執行擷取、轉換和載入 (ETL) 操作的複雜資料管道。Zero-ETL 整合會透過為您佈建和管理管道,免除建置和管理這些管道所帶來的挑戰。

  • 減少操作負擔和成本,讓您專注於改善應用程式。

  • 讓您利用 Amazon Redshift 的分析和機器學習功能,從交易和其他資料衍生洞察,以有效地回應關鍵、時間敏感的事件。

重要概念

當您開始使用零 ETL 整合時,請考慮下列概念:

整合

一種全受管資料管道,可自動將交易資料和結構描述從 Aurora 資料庫叢集複寫到 Amazon Redshift 資料倉儲。

來源 DB 叢集

從中複製資料的 Aurora 資料庫叢集對於 Aurora MySQL,您可以指定使用佈建的資料庫執行個體或資料庫執行個體做為來源的Aurora Serverless v2資料庫叢集。對於 Aurora PostgreSQL 預覽版,您只能指定使用佈建資料庫執行個體的叢集。

目標資料倉儲

將資料複寫至其中的 Amazon Redshift 資料倉儲。資料倉儲有兩種類型:佈建的叢集資料倉儲和無伺服器資料倉儲。佈建的叢集資料倉儲是稱為節點的運算資源集合,這些節點會組織成稱為叢集的群組。無伺服器資料倉儲由存放運算資源的工作群組,以及為資料庫物件和使用者提供空間的命名空間所組成。這兩個資料倉儲都會執行 Amazon Redshift 引擎,並包含一或多個資料庫。

多個來源叢集可以寫入相同的目標。

如需詳細資訊,請參閱《Amazon Redshift 開發人員指南》中的資料倉儲系統架構

限制

以下限制適用於與 Amazon Redshift 的 Aurora 零 ETL 整合。

一般限制

  • 來源資料資料庫叢集必須與目標 Amazon Redshift 資料倉儲位於相同的區域。

  • 如果叢集或其任何執行個體具有現有整合,則無法重新命名該叢集。

  • 您無法刪除具有現有整合功能的叢集。您必須先刪除所有相關聯的整合。

  • 如果您的叢集是藍/綠部署的來源,則在切換期間,藍色和綠色環境就無法擁有現有的 Zero-ETL 整合。您必須先刪除整合再進行轉換,然後重新建立該整合。

  • 資料庫叢集必須至少包含一個資料庫執行個體,才能成為整合的來源。

  • 如果來源叢集是 Aurora 全域資料庫中的主要資料庫叢集,且容錯移轉到其中一個次要叢集,則整合會變成非作用中。您必須刪除並重新建立整合。

  • 您無法為正在主動建立另一個整合的來源資料庫建立整合。

  • 當您一開始建立整合時或當資料表重新同步時,從來源植入目標的資料可能需要 20 到 25 分鐘或更長時間,取決於來源資料庫的大小。此延遲可能會導致複本延遲增加。

  • 不支援某些資料類型。如需詳細資訊,請參閱 Aurora 與 Amazon Redshift 資料庫之間的資料類型差異

  • 不支援具有預先定義資料表更新的外部索引鍵參照。具體而言,ON DELETE和動作不支援和ON UPDATESET DEFAULT則。CASCADE SET NULL嘗試建立或更新對另一個資料表具有這類參考的資料表,會將該資料表置於失敗狀態。

  • ALTER TABLE分割區操作會導致您的資料表重新同步,以便將資料從 Aurora 重新載入到 Amazon Redshift。資料表將無法在重新同步處理時進行查詢。如需詳細資訊,請參閱 我的一個或多個 Amazon Redshift 資料表需要重新同步

  • 不支援 XA 交易。

  • 物件識別符 (包括資料庫名稱、資料表名稱、資料欄名稱等) 只能包含英數字元、數字、$ 和 _ (底線)。

Aurora MySQL 限制

  • 您的來源資料庫叢集必須執行 Aurora MySQL 3.05 版 (與 MySQL 8.0.32 相容) 或更新版本。

  • 零 ETL 整合依賴 MySQL 二進位記錄 (binlog),來擷取持續的資料變更。請勿使用 binlog 型資料篩選,因為這可能會導致來源和目標資料庫之間的資料不一致。

  • Aurora MySQL 系統資料表、暫時資料表和檢視不會複寫到 Amazon Redshift。

  • 僅針對設定為使用 InnoDB 儲存體引擎的資料庫支援零 ETL 整合。

Aurora 預覽限制

重要

適用於 Aurora PostgreSQL 的 Amazon Redshift 功能的零 ETL 整合已推出預覽版本。文件和功能會隨時變更。您只能在測試環境中使用此功能,而不能在生產環境中使用。如需預覽條款與條件,請參閱AWS 服務條款中的 Beta 版和預覽版

  • 您的來源資料庫叢集必須執行 Aurora PostgreSQL (相容於 PostgreSQL 15.4 和零 ETL Support)。

  • 您只能在美國東部 (俄亥俄州) (美國東部-2) 的 Amazon RDS 資料庫預覽環境中,為 Aurora PostgreSQL 建立和管理零 ETL 整合。 AWS 區域您可以使用預覽環境來測試 PostgreSQL 資料庫引擎軟體的測試版、候選發行版和早期生產版本。

  • 您只 Aurora PostgreSQL 用. AWS Management Console您不能使用 AWS Command Line Interface (AWS CLI),Amazon RDS API 或任何 AWS 開發套件。

  • 建立來源資料庫叢集時,您選擇的參數群組必須已設定必要的資料庫叢集參數值。之後您無法建立新的參數群組,然後將其與叢集產生關聯。如需必要參數的清單,請參閱步驟 1:建立自訂資料庫叢集參數群組。

  • 您無法在建立整合之後修改整合。如果您需要變更某些設定,則必須刪除並重新建立整合。

  • 目前,作為整合來源的 Aurora PostgreSQL 資料庫叢集不會執行邏輯複寫資料的記憶體回收。

  • 在來源 Aurora PostgreSQL 資料庫叢集內建立的所有資料庫都必須使用 UTF-8 編碼。

  • 欄名稱不能包含下列任何字元:逗號 (,)、分號 (;)、括號 ()、大括號 {}、換行符號 (\ n)、定位點 (\ t)、等號 (=) 和空格。

  • 與 Aurora 的零 ETL PostgreSQL 支援下列項目:

    • Aurora Serverless v2資料庫執行個體 來源資料庫叢集必須使用佈建的資料庫執行個體

    • 擴充功能建立的自訂資料類型或資料類型。

    • 來源資料庫叢集上的子交易。

    • 重新命名來源資料庫叢集中的結構描述或資料庫。

    • 從資料庫叢集快照還原,或使用 Aurora 複製建立來源資料庫叢集。如果要將現有資料引入預覽叢集,則必須使用pg_dumppg_restore公用程式。

    • 在來源資料庫叢集的寫入器執行個體上建立邏輯複寫插槽。

    • 需要超大屬性儲存技術 (TOAST) 的大型欄位值。

    • ALTER TABLE磁碟分割作業。這些作業可能會導致資料表重新同步處理,並最終進入狀態。Failed如果資料表失敗,則必須卸除並重新建立資料表。

Amazon Redshift 限制

如需與零 ETL 整合相關的 Amazon Redshift 限制清單,請參閱 Amazon Red shift 管理指南中的考量事項

配額

您的帳戶具有與 Amazon Redshift 的 Aurora 零 ETL 整合相關的下列配額。除非另有說明,否則每個配額都是根據區域而定。

名稱 預設 描述
整合 100 AWS 帳戶內的整合總數。
每個目標資料倉儲的整合 50 將資料傳送至單一目標 Amazon Redshift 資料倉儲的整合數目。
每個來源叢集的整合 5 為 Aurora MySQL,1 為 Aurora 從單一來源資料庫叢集傳送資料的整合數目。

此外,Amazon Redshift 會對每個資料庫執行個體或叢集節點中允許的資料表數目設定某些限制。如需詳細資訊,請參閱《Amazon Redshift 管理指南》中的 Amazon Redshift 中的配額和限制

支援地區

Aurora 零 ETL 與 Amazon Redshift 集成在一個子集成中提供。 AWS 區域如需支援的區域的清單,請參閱 支援的區域和 Aurora 資料庫引擎,可與 Amazon Redshift 進行零 ETL 整合