Amazon RDS Aurora零 ETL 整合 - Amazon Relational Database Service

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

Amazon RDS Aurora零 ETL 整合

Amazon RDS Aurora與 Amazon Redshift 的零 ETL 整合,並使用 RDSAurora 的資料 Amazon SageMaker AI 啟用近乎即時的分析和機器學習 (ML)。它是全受管解決方案,可在將交易資料寫入 RDS 資料庫 後,在分析目的地中使用。擷取、轉換載入 (ETL) 是將來自多個來源的資料合併到大型中央資料倉儲的程序。

零 ETL 整合可讓 RDS 資料庫中的資料 近乎即時地在 Amazon Redshift 或 Amazon SageMaker AI Lakehouse 中提供。一旦資料位於目標資料倉儲或資料湖中,您可以使用內建功能來支援分析、ML 和 AI 工作負載,例如機器學習、具體化視觀表、資料共用、對多個資料存放區和資料湖的聯合存取,以及與 Amazon SageMaker AI、QuickSight 和其他 整合 AWS 服務。

若要建立零 ETL 整合,您可以將 RDS 資料庫 指定為來源,並將支援的資料倉儲或湖房指定為目標。整合會將來源資料庫的資料複寫到目標資料倉儲或湖中。

下圖說明與 Amazon Redshift 進行零 ETL 整合的此功能:

零 ETL 整合

下圖說明與 Amazon SageMaker AI lakehouse 進行零 ETL 整合的此功能:

與 Lakehouse Amazon SageMaker AI 的零 ETL 整合

整合會監控資料管道的運作狀態,並在可能的情況下從問題中復原。您可以從多個 RDS 資料庫建立整合到單一目標資料倉儲或湖中,讓您能夠跨多個應用程式衍生洞見。

優勢

RDS Aurora零 ETL 整合具有下列優點:

  • 協助您從多個資料來源衍生整體洞見。

  • 無需建置和維護執行擷取、轉換和載入 (ETL) 操作的複雜資料管道。Zero-ETL 整合會透過為您佈建和管理管道,免除建置和管理這些管道所帶來的挑戰。

  • 減少操作負擔和成本,讓您專注於改善應用程式。

  • 可讓您利用目標目的地的分析和 ML 功能,從交易和其他資料衍生洞見,以有效回應關鍵、時間敏感的事件。

重要概念

當您開始使用零 ETL 整合時,請考慮下列概念:

整合

全受管資料管道,可自動將交易資料和結構描述從 RDS 資料庫 複寫到資料倉儲或目錄。

來源資料庫

複寫資料來源的 RDS database您可以指定單一可用區或多可用區資料庫執行個體,或多可用區資料庫叢集。

目標

資料複寫到的資料倉儲或湖房。資料倉儲有兩種類型:佈建的叢集資料倉儲和無伺服器資料倉儲。佈建的叢集資料倉儲是稱為節點的運算資源集合,這些節點會組織成稱為叢集的群組。無伺服器資料倉儲由存放運算資源的工作群組,以及為資料庫物件和使用者提供空間的命名空間所組成。兩個資料倉儲都會執行分析引擎,並包含一或多個資料庫。

目標湖區由目錄、資料庫、資料表和檢視組成。如需 Lakehouse 架構的詳細資訊,請參閱Amazon SageMaker AI Unified Studio《 使用者指南SageMaker Lakehouse components》中的 。

多個來源資料庫可以寫入相同的目標。

如需詳細資訊,請參閱《Amazon Redshift 開發人員指南》中的資料倉儲系統架構

限制

下列限制適用於 RDS Aurora零 ETL 整合。

一般限制

  • 來源 database必須與目標位於相同的區域。

  • 如果資料庫叢集具有現有的整合,則無法重新命名資料庫。

  • 您無法在相同的來源和目標資料庫之間建立多個整合。

  • 您無法刪除具有現有整合的資料庫。您必須先刪除所有相關聯的整合。

  • 如果您停止來源資料庫,在您繼續資料庫之前,最後幾個交易可能不會複寫到目標。

  • 如果來源資料庫已停止,則無法刪除整合。

  • 如果您的資料庫是藍/綠部署的來源,藍和綠環境在切換期間無法擁有現有的零 ETL 整合。您必須先刪除整合再進行轉換,然後重新建立該整合。

  • 您無法為正在主動建立另一個整合的來源資料庫建立整合。

  • 當您一開始建立整合時或當資料表重新同步時,從來源植入目標的資料可能需要 20 到 25 分鐘或更長時間,取決於來源資料庫的大小。此延遲可能會導致複本延遲增加。

  • 不支援某些資料類型。如需詳細資訊,請參閱RDS 與 Amazon Redshift 資料庫之間的資料類型差異

  • 系統資料表、暫存資料表和檢視不會複寫至目標倉儲。

  • 在來源資料表上執行 DDL 命令 (例如 ALTER TABLE) 可以觸發資料表重新同步,使得資料表無法在重新同步時進行查詢。如需詳細資訊,請參閱我的一個或多個 Amazon Redshift 資料表需要重新同步

RDS for MySQL 限制

  • 您的來源資料庫必須執行支援的 RDS for MySQL 版本。如需支援的版本的清單,請參閱Amazon RDS 零 ETL 整合支援的區域和資料庫引擎

  • 相同 AWS 區域中的主要執行個體和僅供讀取複本執行個體都不支援零 ETL 整合。

  • 零 ETL 整合依賴 MySQL 二進位記錄 (binlog),來擷取持續的資料變更。請勿使用 binlog 型資料篩選,因為這可能會導致來源和目標資料庫之間的資料不一致。

  • 僅針對設定為使用 InnoDB 儲存體引擎的資料庫支援零 ETL 整合。

  • 不支援具有預先定義資料表更新的外部金鑰參考。具體而言, CASCADEON DELETESET DEFAULT動作不支援 SET NULLON UPDATE規則。嘗試建立或更新對另一個資料表具有這類參考的資料表,會將該資料表置於失敗狀態。

RDS for PostgreSQL 限制

  • 來源資料庫必須是執行 15.7+、16.3+ 或 17.1+ 版的 RDS for PostgreSQL 執行個體。不支援舊版。

  • 您無法從 RDS for PostgreSQL 僅供讀取複本執行個體建立零 ETL 整合。

  • PostgreSQL 未記錄的資料表和具體化視觀表不會複寫到 Amazon Redshift。

  • 由於 Amazon Redshift 的限制,不支援複寫特定 PostgreSQL 資料類型,例如幾何資料類型和大於 64KB 的資料。如需 RDS for PostgreSQL 和 Amazon Redshift 之間資料類型差異的詳細資訊,請參閱 資料類型差異一節RDS for PostgreSQL中的 。

  • 當來源 RDS for PostgreSQL 執行個體具有作用中的零 ETL 整合時,您無法對其執行主要版本升級。若要升級來源執行個體,您必須先刪除所有現有的零 ETL 整合。主要版本升級完成後,您可以重新建立零 ETL 整合。

  • 如果您在來源資料庫執行個體上執行宣告性分割交易,所有受影響的資料表都會進入失敗狀態,且無法再存取。

RDS for Oracle 限制

  • 來源資料庫必須是執行 19c Enterprise Edition 或 Standard Edition 2,2019 年 7 月版本更新或更新版本的 RDS for Oracle 執行個體。不支援舊版。

  • 您無法從 RDS for Oracle 僅供讀取複本執行個體建立零 ETL 整合。

  • 租用戶資料庫上有零 ETL 整合時,您無法重新命名租用戶資料庫。

  • 租用戶資料庫只能有一個零 ETL 整合。

  • 當您從 RDS for Oracle 建立零 ETL 整合時,您無法修改該整合。若要修改整合,您必須刪除整合,然後建立新的整合。

  • RDS for Oracle 和 Amazon Redshift 有一些資料類型差異。如需詳細資訊,請參閱 資料類型差異一節RDS for Oracle中的 。

Amazon Redshift 限制

如需與零 ETL 整合相關的 Amazon Redshift 限制清單,請參閱《Amazon Redshift 管理指南》中的將零 ETL 整合與 Amazon Redshift 搭配使用時的考量事項。

Amazon SageMaker AI Lakehouse 限制

以下是湖房零 ETL Amazon SageMaker AI 整合的限制。

  • 目錄名稱長度限制為 19 個字元。

配額

您的帳戶具有下列與 RDS Aurora零 ETL 整合相關的配額。除非另有說明,否則每個配額都是根據區域而定。

名稱 預設 描述
整合 100 AWS 帳戶內的整合總數。
每個目標的整合 50 將資料傳送至單一目標資料倉儲或湖區的整合數目。
每個來源執行個體的整合 5 從單一來源資料庫執行個體傳送資料的整合數目。

此外,目標倉儲會限制每個資料庫執行個體或叢集節點中允許的資料表數量。如需 Amazon Redshift 配額和限制的詳細資訊,請參閱《Amazon Redshift 管理指南》中的 Amazon Redshift 中的配額和限制

支援地區

RDS Aurora零 ETL 整合可在 的子集中使用 AWS 區域。如需支援的區域的清單,請參閱 Amazon RDS 零 ETL 整合支援的區域和資料庫引擎