本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。
在 上設計用於成長和擴展的資料湖 AWS 雲端
Wei Shao,Amazon Web Services (AWS)
2021 年 10 月 (文件歷史記錄)
組織在 Amazon Web Services (AWS) 雲端上設計和建置資料湖,作為其資料現代化策略的一部分。資料湖可以是儲存庫,可存放任何規模的結構化和非結構化資料,並提供給各種內部和外部使用者。
不過,將資料擷取到為不斷增長的業務使用案例提供服務的資料湖可能需要大量時間和精力。為了協助降低成本並最大化從資料產生的值,許多組織計劃將資料一次性擷取到其資料湖中,然後多次使用這些資料。設計隨資料生產、共用和耗用而擴展的資料湖架構,對於在資料湖增長時為業務利益相關者提供價值至關重要。
可擴展的資料湖架構為您的組織提供堅實的基礎,從資料湖中獲取價值,同時將更多資料帶入其中。透過持續獲得資料洞見,而不會因為可擴展性限制而變慢或中斷,可擴展的資料湖也有助於您的組織保持競爭力。
一般而言,資料湖具有資料生產者和資料消費者。資料生產者透過從其資料網域收集、處理和儲存資料來建立資料資產。這些集合資料資產會構成您的資料湖的內容。資料生產者可以選擇選擇性地與資料湖的資料取用者共用其資料資產。
資料消費者需要來自資料生產者的資料,才能滿足其業務使用案例,而且有時也可以將此資料與自己的資料結合。資料生產者和資料消費者通常是您組織的一部分,但並非一律如此。重要的是,它們可以同時是資料生產者或資料消費者。
可擴展的資料湖架構可協助您達成下列結果:
-
大規模加入資料生產者,而無需他們維護整個資料共用程序。這有助於資料生產者將其資料加入資料湖,並專注於從其資料網域收集、處理和儲存資料。
-
讓資料消費者從多個資料生產者存取資料,而不會增加整體成本和管理開銷。
本指南說明當組織擴展其資料湖、提供資料湖參考架構,以及概述加入和授予資料生產者和資料消費者存取權的方法時,可能發生的常見擴展挑戰。本指南中的資料湖參考架構會利用 提供的不同功能AWS Lake Formation。本指南適用於負責在 上設計資料湖的團隊 AWS 雲端,包括企業資料架構師、資料平台架構師、設計者或資料網域領導。
目標業務成果
在設計資料湖以促進增長並擴展 之後,您應該預期以下三個結果 AWS 雲端:
-
降低組織中跨多行業務的資料共用和資料消耗開銷。
-
一種安全且一致的方法,可協助組織包含外部資料生產者,並在您的資料湖中與他們共用資料。
-
持續獲得資料洞見,而不會因為可擴展性限制而變慢或中斷。