使用 Starburst 將資料遷移至 AWS Cloud - AWS 方案指引

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

使用 Starburst 將資料遷移至 AWS Cloud

由 Antony Prasad Thevaraj (AWS)、Shaun Van Staden (Starburst) 和 Suresh Veeragoni (AWS) 建立

環境:生產

技術:分析;資料湖;資料庫

工作負載:所有其他工作負載

AWS 服務:Amazon EKS

Summary

Starburst 透過提供企業查詢引擎,將現有資料來源整合在單一存取點中,協助加速資料遷移至 Amazon Web Services (AWS) 的旅程。您可以在完成任何遷移計畫之前,跨多個資料來源執行分析,以取得寶貴的洞見。在不中斷 business-as-usual分析的情況下,您可以使用 Starburst 引擎或專用擷取、轉換和載入 (ETL) 應用程式來遷移資料。

先決條件和限制

先決條件

  • 作用中AWS帳戶

  • 虛擬私有雲端 (VPC)

  • Amazon Elastic Kubernetes Service (Amazon EKS) 叢集

  • Amazon Elastic Compute Cloud (Amazon EC2) Auto Scaling 群組

  • 需要遷移的目前系統工作負載清單

  • 從 AWS到內部部署環境的網路連線

架構

參考架構

下列高階架構圖顯示 Starburst Enterprise 在 AWSCloud 中的典型部署:

  1. Starburst Enterprise 叢集會在AWS您的帳戶內執行。

  2. 使用者使用 Lightweight Directory Access Protocol (LDAP) 或 Open Authorization (OAuth) 進行身分驗證,並直接與 Starburst 叢集互動。

  3. Starburst 可以連線至數個AWS資料來源,例如 AWS Glue、Amazon Simple Storage Service (Amazon S3)、Amazon Relational Database Service (Amazon RDS) 和 Amazon Redshift。Starburst 提供跨AWS雲端、內部部署或其他雲端環境中資料來源的聯合查詢功能。

  4. 您可以使用 Helm Chart 在 Amazon EKS叢集中啟動 Starburst Enterprise。

  5. Starburst Enterprise 使用 Amazon EC2 Auto Scaling 群組和 Amazon EC2 Spot 執行個體來最佳化基礎設施。

  6. Starburst Enterprise 會直接連線至現有的內部部署資料來源,以即時讀取資料。此外,如果您在此環境中有現有的 Starburst Enterprise 部署,則可以直接將 AWS Cloud 中的新 Starburst 叢集連接到此現有的叢集。

AWS 雲端中 Starburst Enterprise 部署的高階架構圖

請注意以下內容:

  • Starburst 不是資料虛擬化平台。它是一種SQL以 為基礎的大規模平行處理 (MPP) 查詢引擎,構成分析的整體資料網格策略的基礎。

  • 當 Starburst 作為遷移的一部分部署時,它可以直接連線至現有的內部部署基礎設施。

  • Starburst 提供數個內建企業和開放原始碼連接器,可促進與各種舊版系統的連線。如需連接器及其功能的完整清單,請參閱 Starburst Enterprise 使用者指南中的連接器

  • Starburst 可以從內部部署資料來源即時查詢資料。這可防止在遷移資料時中斷一般業務操作。

  • 如果您要從現有的內部部署 Starburst Enterprise 部署遷移,您可以使用特殊連接器 Starburst Stargate 直接將 Starburst Enterprise 叢集連接到AWS內部部署叢集。當商業使用者和資料分析師將查詢從 AWS Cloud 聯合到內部部署環境時,這會提供額外的效能優勢。

高階程序概觀

您可以使用 Starburst 來加速資料遷移專案,因為 Starburst 會在遷移所有資料之前啟用對所有資料的洞察。下圖顯示使用 Starburst 遷移資料的典型程序。

使用 Starburst 將資料遷移至AWS雲端的處理流程

Roles (角色)

使用 Starburst 完成遷移通常需要下列角色:

  • 雲端管理員 – 負責提供雲端資源以執行 Starburst Enterprise 應用程式

  • Starburst 管理員 – 負責安裝、設定、管理和支援 Starburst 應用程式

  • 資料工程師 – 負責:

    • 將舊版資料遷移至雲端

    • 建立語意檢視以支援分析

  • 解決方案或系統擁有者 – 負責整體解決方案實作

工具

AWS 服務

  • Amazon EC2 – Amazon Elastic Compute Cloud (Amazon EC2) 在 AWS Cloud 中提供可擴展的運算容量。

  • Amazon EKS – Amazon Elastic Kubernetes Service (Amazon EKS) 是可在 上執行 Kubernetes 的受管服務,AWS不需要站立或維護您自己的 Kubernetes 控制平面。Kubernetes 是一套開放原始碼系統,用於容器化應用程式的自動化部署、擴展與管理。

其他工具

  • Helm – Helm 是 Kubernetes 套件管理員,可協助您在 Kubernetes 叢集上安裝和管理應用程式。

  • Starburst Enterprise – Starburst Enterprise 是以 SQL為基礎的大規模平行處理 (MPP) 查詢引擎,構成分析的整體資料網格策略的基礎。

  • Starburst Stargate – Starburst Stargate 會將一個 Starburst Enterprise 環境中的目錄和資料來源,例如內部部署資料中心中的叢集,連結至另一個 Starburst Enterprise 環境中的目錄和資料來源,例如 AWS Cloud 中的叢集。

史詩

任務描述所需的技能
識別資料並排定優先順序。

識別您要移動的資料。大型內部部署舊版系統可以包含您想要與您不想要移動或由於合規原因無法移動的資料一起遷移的核心資料。從資料清查開始,可協助您排定應該優先鎖定的資料優先順序。如需詳細資訊,請參閱 自動產品組合探索入門

資料工程師、 DBA
探索、清查和備份您的資料。

驗證使用案例資料的品質、數量和相關性。視需要備份或建立資料的快照,並最終確定資料的目標環境。

資料工程師、 DBA
任務描述所需的技能
在 AWS Cloud 中設定 Starburst Enterprise。

在編製資料目錄時,在 受管 Amazon EKS叢集中設定 Starburst Enterprise。如需詳細資訊,請參閱 Starburst Enterprise 參考文件 中的使用 Kubernetes 部署。這允許 business-as-usual在資料遷移過程中進行分析。

AWS 管理員、應用程式開發人員
將 Starburst 連接至資料來源。

識別資料並設定 Starburst Enterprise 之後,請將 Starburst 連接至資料來源。Starburst 會直接從資料來源讀取資料作為SQL查詢。如需詳細資訊,請參閱 Starburst Enterprise 參考文件

AWS 管理員、應用程式開發人員
任務描述所需的技能
建置和執行ETL管道。

開始資料遷移程序。此活動可與分析同時 business-as-usual發生。對於遷移,您可以使用第三方產品或 Starburst。Starburst 能夠跨不同來源讀取和寫入資料。如需詳細資訊,請參閱 Starburst Enterprise 參考文件

資料工程師
驗證資料。

資料遷移後,請驗證資料,以確保所有必要的資料都已移動且完好無損。

資料工程師, DevOps engineer
任務描述所需的技能
剪下資料。

資料遷移和驗證完成後,您可以剪下資料。這涉及變更 Starburst 中的資料連線連結。您不會指向內部部署來源,而是指向新的雲端來源並更新語意檢視。如需詳細資訊,請參閱 Starburst Enterprise 參考文件 中的 Connectors

資料工程師,Cutureover 主管
向使用者推出。

資料取用者開始處理遷移的資料來源。分析最終使用者看不到此程序。

Cutover 潛在客戶、資料工程師

相關資源

AWS Marketplace

Starburst 文件

其他AWS文件