データ共有の概要
Amazon Redshift では、Amazon Redshift クラスター間でライブデータを安全に共有できるため、データ共有ワークフローが簡素化され、複雑な抽出、変換、ロード (ETL) プロセスの必要性が軽減されます。データ共有を使用すると、Amazon Redshift クラスター間でライブデータを共有できるため、データをコピーまたは複製することなく、最新のデータにリアルタイムでアクセスできます。データベース管理者、データアナリスト、およびデータエンジニアは、チームや組織内または組織間でのデータアクセスとコラボレーションを合理化するために活用することができます。これにより、本番環境のデータを分析チームと共有したり、分散されているデータソース間でリアルタイムレポートを提供したり、アクセス許可を一元的に制御してデータガバナンスを簡素化したりするなどのユースケースが可能になります。以下のセクションでは、Amazon Redshift でのデータ共有の設定と管理の詳細について説明します。
データ共有を使用すると、Amazon Redshift クラスター間でライブデータを安全かつ簡単に共有できます。
データ共有の使用を開始する方法、および AWS Management Consoleを使用してデータ共有を管理する方法については、「データ共有タスクの管理」 を参照してください。
Amazon Redshift のデータ共有ユースケース
Amazon Redshift のデータ共有は、次のユースケースで特に便利です。
-
さまざまな種類のビジネスクリティカルなワークロードのサポート – 複数のビジネスインテリジェンス (BI) クラスターまたは分析クラスターとデータを共有する一元的な抽出、変換、およびロード (ETL) クラスターを使用します。このアプローチは、個々のワークロードに対して読み込みワークロードの分離とチャージバックを提供します。料金とパフォーマンスのワークロード固有の要件に応じて、個々のワークロードコンピューティングのサイズとスケーリングを行うことができます。
-
クロスグループコラボレーションの有効化 – より広範な分析、データサイエンス、製品間の影響分析のために、チームやビジネスグループ間でシームレスなコラボレーションを実現します。
-
サービスとしてのデータの提供 – 組織全体でデータをサービスとして共有できます。
-
環境間でのデータの共有 – 開発、テスト、本番稼働環境間でデータを共有します。さまざまなレベルの詳細なデータを共有することで、チームの俊敏性を向上させることができます。
-
Amazon Redshift 内のデータにアクセスするライセンスを供与する – 顧客が数分で検索、サブスクライブ、クエリできる AWS Data Exchange カタログに Amazon Redshift データセットを出品します。
データ共有の書き込みアクセスのデータ共有 (プレビュー)
書き込みのデータ共有には、いくつかの重要なユースケースがあります。
-
プロデューサーのビジネスソースデータを更新する — データをサービスとして組織全体で共有できますが、コンシューマーはソースデータに対してアクションを実行することもできます。例えば、最新の値を伝えたり、データの受信を確認したりできます。これらは考えられるビジネスユースケースのほんの一部です。
プロデューサーに追加レコードを挿入する — コンシューマーは元のソースデータにレコードを追加できます。これらには、必要に応じてコンシューマーからのものとしてマークできます。
データ共有に対して書き込み操作を実行する方法の詳細については、「データへの書き込みアクセスの共有 (プレビュー)」を参照してください。
Amazon Redshift の異なるレベルでのデータ共有
Amazon Redshift を使用すると、さまざまなレベルでデータを共有できます。これらのレベルには、データベース、スキーマ、テーブル、ビュー (通常ビュー、遅延バインディングビュー、マテリアライズドビューを含む)、および SQL ユーザー定義関数 (UDF) が含まれます。特定のデータベースに対して複数のデータ共有を作成できます。データ共有には、共有が作成されたデータベース内の複数のスキーマのオブジェクトを含めることができます。
データ共有にこの柔軟性を加えることで、詳細なアクセスコントロールを実現します。このコントロールは、Amazon Redshift データへのアクセスを必要とするさまざまなユーザーやビジネスに合わせて調整できます。
Amazon Redshift でのデータ共有の一貫性の管理
Amazon Redshift は、すべてのプロデューサクラスターおよびコンシューマークラスターでトランザクションの一貫性を提供し、データの最新で一貫性のあるビューをすべてのコンシューマーと共有します。
プロデューサークラスターのデータを継続的に更新できます。トランザクション内のコンシューマークラスターに対するすべてのクエリは、共有データの同じ状態を読み取ります。Amazon Redshift は、プロデューサークラスターでの別のトランザクションによって変更されたデータで、コンシューマークラスターでのトランザクションの開始後にコミットされたデータを考慮しません。プロデューサークラスターでデータ変更がコミットされた後、コンシューマークラスターでの新しいトランザクションは更新されたデータをすぐにクエリできます。
強力な一貫性により、データの共有中、無効な結果が含まれる可能性がある忠実度の低いビジネスレポートのリスクが排除されます。この要素は、財務分析や、機械学習モデルのトレーニングに使用されるデータセットを準備するために結果を使用する場合に特に重要です。