翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。
で成長とスケーリングのためのデータレイクの設計 AWS クラウド
Wei Shao、Amazon Web Services (AWS)
2021 年 10 月 (ドキュメント履歴)
組織は、データモダナイゼーション戦略の一環として、アマゾン ウェブ サービス (AWS) クラウドでのデータレイクの設計と構築を進めています。データレイクは、構造化データと非構造化データをあらゆる規模で保存し、さまざまな内部および外部ユーザーが利用できるリポジトリです。
ただし、増大するビジネスユースケースに対応するデータレイクにデータを取り込むには、時間と労力がかかる場合があります。コストを削減し、データから生成される価値を最大化するために、多くの組織はデータレイクへのデータの 1 回限りの取り込みを計画し、このデータを複数回消費します。データレイクが拡大したときにビジネスステークホルダーに価値を提供するには、データの生産、共有、消費に合わせてスケールするデータレイクアーキテクチャの設計が不可欠です。
スケーラブルなデータレイクアーキテクチャは、より多くのデータをデータレイクに取り込むと同時に、データレイクから価値を得るための強固な基盤を組織に提供します。スケーラビリティの制約のために速度を下げたり中断したりすることなくデータインサイトを継続的に取得することで、スケーラブルなデータレイクは組織の競争を維持するのにも役立ちます。
通常、データレイクにはデータプロデューサーとデータコンシューマーがあります。データプロデューサーは、データドメインからデータを収集、処理、保存することでデータアセットを作成します。これらの集合データアセットは、データレイクのコンテンツを形成します。データプロデューサーは、データアセットをデータレイクのデータコンシューマーと選択的に共有することを選択できます。
データコンシューマーは、ビジネスユースケースを達成するためにデータプロデューサーからのデータを必要とし、このデータを独自のデータと組み合わせることもあります。データプロデューサーとデータコンシューマーは通常、組織の一部です。ただし、必ずしもそうではありません。重要なのは、両方のデータプロデューサーまたはデータコンシューマーを同時に指定できることです。
スケーラブルなデータレイクアーキテクチャは、次の成果を達成するのに役立ちます。
-
データプロデューサーを大規模にオンボードします。データ共有プロセス全体を維持する必要はありません。これにより、データプロデューサーはデータをデータレイクにオンボードし、データドメインからのデータの収集、処理、保存に集中できます。
-
データコンシューマーは、全体的なコストや管理オーバーヘッドを増やすことなく、複数のデータプロデューサーのデータにアクセスできます。
このガイドでは、組織がデータレイクを成長させるときに発生する可能性がある一般的なスケーリングの課題について説明し、データレイクリファレンスアーキテクチャを提供し、データプロデューサーとデータコンシューマーをオンボーディングしてアクセス権を付与するためのアプローチの概要を説明します。このガイドのデータレイクリファレンスアーキテクチャは、 が提供するさまざまな機能を活用していますAWS Lake Formation。このガイドは、エンタープライズデータアーキテクト AWS クラウド、データプラットフォームアーキテクト、デザイナー、データドメインリードなど、 でデータレイクの設計を担当するチームを対象としています。
ターゲットを絞ったビジネス成果
で成長とスケールのためのデータレイクを設計した後、次の 3 つの成果が期待されます AWS クラウド。
-
組織内の複数の事業部門でのデータ共有とデータ消費のオーバーヘッドを削減します。
-
組織が外部データプロデューサーを含め、データレイク内でデータを共有するのに役立つ、安全で一貫性のあるアプローチ。
-
スケーラビリティの制約により、速度が低下したり中断されたりすることなく、データインサイトを継続的に取得できます。