データレイク設計原則
データレイクを構築することで、データサイロを解消し、価値を引き出すためのデータを誰でも利用できるようになります。中央データリポジトリにより、組織はデータ主導の意思決定と迅速なイノベーションが可能になります。
組織は、急激に増加するさまざまなデータソースを格納するため、費用対効果が高く弾力性のあるストレージ容量を求めています。組織では、複数の事業部門にまたがる膨大な量のデータを一元的に管理し、共有しようと考えています。さらに、従業員や利害関係者が、より短時間で価値を実現し、ビジネスの洞察を引き出そうとしています。
データレイクを設計する際の考慮事項:
-
構造化、非構造化、半構造化など、さまざまなデータタイプの高速データをどのように収集、保存、分析するか。
-
ペタバイトのデータをオンデマンドで、グローバルに、高い費用対効果で保存および共有する方法。
-
データに対する多数の同時クエリをサポートし、コスト削減のために自動的にスケールダウンするための IT リソースのスケーリング方法。
-
現在、ユーザーは複数のデータリポジトリをどのように表示、検索、クエリを実行しているか。
-
過去のデータパターンや過去のシナリオから、どのように将来の洞察を引き出すか。