資料架構 - AWS 方案指引

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

資料架構

設計和發展fit-for-purpose的資料和分析架構。

設計良好的資料和分析架構對於取得可行的洞見至關重要。透過設計和發展fit-for-purpose的資料和分析架構,組織可以降低複雜性、成本和技術債務,同時從不斷增長的資料量中釋放有價值的洞見。透過與 AWS CAF 原則保持一致,企業可以建立與現有平台無縫整合的資料架構。此對齊可讓組織利用現代資料處理和分析技術提供的優勢。

資料和分析架構是組織從資料中衍生值之功能的藍圖。它有助於組織獲得新的業務洞察,並且是業務成長的催化劑。為了支援業務需求,現代資料架構應符合短期和長期業務目標,且符合組織的文化和內容需求。在現今的世界中,資料和分析架構的成功實作和採用,是以在正確的時間為正確的消費者啟用正確資料的原則為基礎。

這可透過規劃和組織組織資料資產在實體上或邏輯上建模的方式、如何保護資料,以及這些資料模型如何互相互動以解決業務問題,以及衍生未知模式並產生洞見來實現。

Start

定義總體功能

在目前的商業環境中,現代資料分析平台必須從資料衍生值,才能支援組織中的各種網域。現代資料架構應包含專為特定使用案例所建置和最佳化的工具集和模式,而不是採用單一資料架構方法。架構應該能夠發展並包含基本的建置區塊,例如可擴展的資料湖、專用分析服務、統一的資料存取和統一的控管。

組織資料區域

資料的組織和存放方式可快速且輕鬆地存取,是資料架構的關鍵層面。這可以透過在資料湖中設定自訂資料區域來實現。資料區域分類如下:

  • 從異質來源收集的原始資料

  • 整理和轉換資料以支援每個網域的分析需求

  • 報告需求的使用案例或產品型資料陣列

  • 具有安全和合規控制的外部公開資料

規劃資料的敏捷性和民主化

分析平台的有效性取決於佈建資料的速度,以及將佈建資料普及以供取用。資料佈建敏捷性是透過資料架構以各種方式採購和處理資料的能力來實現,例如根據使用案例的即時、近乎即時、批次、微型批次或混合。資料民主化是透過定義由資料管理員監控的資料共用和存取控制工作流程來實現。實作資料市集是使資料普及的其中一個推動因素。

定義安全資料交付

現代資料架構是安全領域外部的堡壘,但允許員工或資料使用者輕鬆存取其工作職能所定義的資料使用者,並遵守健康保險流通與責任法案 (HIPAA)、個人身分識別資訊 (PII)、一般資料保護法規 (GDPR) 等合規限制。這是透過角色型存取控制 (RBAC) 和標籤型存取控制 (TBAC) 方法實現的。在 上 AWS,標籤用於控制對資料的存取,以簡化存取控制管理。根據 AWS CAF Security 觀點中概述的原則執行此操作。

規劃成本效益

傳統資料倉儲提供緊密耦合的運算和儲存,具有高資源使用成本。現代架構會分離運算和儲存體,並根據資料生命週期實作分層儲存體。例如,在 上 AWS,您可以使用 Amazon Simple Storage Service (Amazon S3) 控制成本,並將資料儲存與運算分離。Amazon S3 儲存體方案專為為不同存取模式提供最低成本的儲存體而打造。此外, AWS 運算工具 (例如 Amazon AthenaAWS GlueAmazon RedshiftAmazon SageMaker Runtime) 是無伺服器,因此您不必管理基礎設施,只需為使用量付費。 

進階

現代資料架構可以進一步增強,以增加資料使用量的廣度,從支援業務和營運功能的標準分析,到支援預測和洞見的更複雜功能,有助於支援更快的決策。為了達成此目的, 架構支援以下各節中所述的功能。

了解功能工程

特徵工程使用機器學習,並涉及設定特徵存放區或特徵陣營。資料科學團隊會為監督式和非監督式學習模型建立新的功能 (衍生屬性),並將它們存放在功能規格中,以簡化轉換並增強資料準確性。企業可以在多個分析模型中重複使用這些功能,進而加快上市速度。

計劃將資料集取消標準化

建構非標準化資料集或資料棚可能會大幅簡化商業使用者的資料集,方法是在單一位置提供所需的資料並提高分析速度。如果精心設計,則一筆記錄可以支援多個用量模型,並減少整體開發生命週期。非標準化資料集的有效控管也很重要,原因有兩個。實作非標準化資料可能會建立大量備援資料集,這可能會成為大規模管理的挑戰。此外,如果資料集未正確建模,則可能越來越難以重新利用。 

設計可攜性和可擴展性

大型組織很少在單一資料平台上擁有其所有應用程式和使用者。其應用程式和資料存放區通常分散在傳統的現場部署和雲端平台,使得分析團隊難以混合和合併資料。我們建議您根據網域、地理位置、商業使用案例等特性來容器化資料。此容器化可提高各種平台和應用程式之間的可攜性,並支援更有效的耗用。將資料分割為容器,並透過 APIs公開,可協助您更輕鬆地擴展資料架構。它可啟用混合end-to-end的資料流程,並協助內部部署和雲端型應用程式順暢運作。

Excel

隨著現代化分析架構在組織內不斷發展,透過引入可重複使用的概念來管理該變更非常重要。這些概念可提高耐用性和採用率,同時控制成本。以下各節會討論一些要考慮的概念。

設計可設定的架構

組織通常會建立多個複雜的模型,以滿足其獨特的業務需求。這些模型需要建立多個資料管道和工程功能。隨著時間的推移,這會產生大量的備援並提高營運成本。建立包含一組參數驅動、可設定的基礎模型的架構,可降低開發時間和營運成本。分析引擎可以實作這些可設定的模型,以提供所需的輸出。

計劃建置統一的分析引擎

業務問題是唯一的,通常需要自訂技術來解決需求,進而在組織中產生多個分析引擎。設計和開發可支援多個程式設計範例的統一 AI 型分析引擎界面,可簡化用量並降低成本。

定義 DataOps

大多數資料專業人員會花費大量的時間執行資料操作,例如尋找正確的資料、轉換、建模等。擁有敏捷的資料操作 (DataOps) 可以透過打破資料工程師、資料科學家、資料擁有者和分析師的孤島,大幅增強資料架構。DataOps 可讓團隊之間進行更好的通訊、縮短週期時間,並確保高資料品質。資料和分析架構隨著時間經過了許多變革,因為業務需求和技術進步不斷變化。組織必須努力開發、實作和維護資料和分析架構,該架構會隨著時間發展並支援其業務。