Starburst を使用してデータをAWSクラウドに移行する - AWS 規範ガイダンス

翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。

Starburst を使用してデータをAWSクラウドに移行する

作成者: Antony Prasad Thevaraj (AWS)、Shaun Van Staden (Starburst)、および Suresh Veeragoni (AWS)

環境:本稼働

テクノロジー: 分析、データレイク、データベース

ワークロード:その他すべてのワークロード

AWS サービス: Amazon EKS

[概要]

Starburst は、既存のデータソースを 1 つのアクセスポイントにまとめるエンタープライズクエリエンジンを提供することで、Amazon Web Services (AWS) へのデータ移行を加速します。移行計画を最終決定する前に、複数のデータ ソースにわたって分析を実行して、貴重なインサイトを得ることができます。分析を中断 business-as-usualすることなく、Starburst エンジンまたは専用の抽出、変換、ロード (ETL) アプリケーションを使用してデータを移行できます。

前提条件と制限

前提条件

  • アクティブなAWSアカウント

  • 仮想プライベートクラウド (VPC)

  • Amazon Elastic Kubernetes Service (Amazon EKS) クラスター

  • Amazon Elastic Compute Cloud (Amazon EC2) Auto Scaling グループ

  • 移行する必要のある現行システムワークロードのリスト

  • からオンプレミス環境AWSへのネットワーク接続

アーキテクチャ

リファレンスアーキテクチャ

次の大まかなアーキテクチャ図は、AWSクラウドでの Starburst Enterprise の一般的なデプロイを示しています。

  1. Starburst Enterprise クラスターは、AWSアカウント内で実行されます。

  2. ユーザーは Lightweight Directory Access Protocol (LDAP) または Open Authorization (OAuth) を使用して認証し、Starburst クラスターと直接やり取りします。

  3. Starburst AWS は、Glue、Amazon Simple Storage Service (Amazon S3)、Amazon Relational Database Service (Amazon RDS)、Amazon Redshift などの複数のAWSデータソースに接続できます。Starburst は、AWSクラウド、オンプレミス、またはその他のクラウド環境のデータソース間でフェデレーティッドクエリ機能を提供します。

  4. Helm チャートを使用して Amazon EKSクラスターで Starburst Enterprise を起動します。

  5. Starburst Enterprise は、Amazon EC2 Auto Scaling グループと Amazon EC2 スポットインスタンスを使用してインフラストラクチャを最適化します。

  6. Starburst Enterprise は既存のオンプレミスデータソースに直接接続し、データをリアルタイムで読み取ります。さらに、この環境に既存の Starburst Enterprise デプロイがある場合は、AWSクラウド内の新しい Starburst クラスターをこの既存のクラスターに直接接続できます。

AWS クラウドでの Starburst Enterprise デプロイの概要アーキテクチャ図

以下の点に注意してください。

  • Starburst は、データ仮想化プラットフォームではありません。これは、分析用の全体的なデータメッシュ戦略の基礎を形成する SQLベースの超並列処理 (MPP) クエリエンジンです。

  • Starburst を移行の一環としてデプロイすると、既存のオンプレミスインフラストラクチャに直接接続できます。

  • Starburst には、さまざまなレガシーシステムへの接続を容易にするエンタープライズコネクタやオープンソースコネクタがいくつか組み込まれています。コネクターとその機能の一覧については、Starburst Enterprise ユーザーガイドの「コネクター」を参照してください。

  • Starburst は、オンプレミスのデータソースからデータをリアルタイムでクエリできます。  これにより、データの移行中に通常の業務が中断することを防止できます。

  • 既存のオンプレミスの Starburst Enterprise デプロイから移行する場合は、特殊なコネクタである Starburst Stargate を使用して、Starburst Enterprise クラスターを でオンプレミスクラスターAWSに直接接続できます。これにより、ビジネスユーザーとデータアナリストがクエリをAWSクラウドからオンプレミス環境にフェデレーションする場合、パフォーマンス上の利点がさらに増します。

大まかなプロセスの概要

Starburst では、移行前にすべてのデータに関するインサイトを得ることができるため、データ移行プロジェクトを加速できます。次の図は、Starburst を使用してデータを移行する一般的なプロセスを示しています。

Starburst を使用してデータをAWSクラウドに移行するプロセスフロー

ロール

通常、Starburst を使用して移行を完了するには、以下のロールが必要です。 

  • クラウド管理者 — Starburst Enterprise アプリケーションを実行するためにクラウドリソースを利用できるようにする責任があります。

  • Starburst 管理者 — Starburst アプリケーションのインストール、設定、管理、サポートを担当します。

  • データエンジニア — 以下の責任を負います。

    • クラウドにレガシーデータを移行する

    • 分析をサポートするセマンティックビューの構築

  • ソリューションオーナーまたはシステムオーナー — ソリューション全体の実装を担当

ツール

AWS サービス

  • Amazon EC2 – Amazon Elastic Compute Cloud (Amazon EC2) は、AWSクラウドでスケーラブルなコンピューティング容量を提供します。

  • Amazon EKS – Amazon Elastic Kubernetes Service (Amazon EKS) は、独自の Kubernetes コントロールプレーンを立ち上げたり維持したりAWSすることなく、 で Kubernetes を実行するためのマネージドサービスです。Kubernetes は、コンテナ化されたアプリケーションのデプロイ、スケーリング、および管理を自動化するためのオープンソースシステムです。

その他のツール

  • Helm – Helm は、Kubernetes クラスター上でアプリケーションをインストールおよび管理するのに役立つ Kubernetes のパッケージマネージャです。

  • Starburst Enterprise – Starburst Enterprise は、分析用の全体的なデータメッシュ戦略の基礎を形成する SQLベースの超並列処理 (MPP) クエリエンジンです。

  • Starburst Stargate – Starburst Stargate は、オンプレミスデータセンターのクラスターなど、ある Starburst Enterprise 環境のカタログとデータソースを、AWSクラウドのクラスターなど、別の Starburst Enterprise 環境のカタログとデータソースにリンクします。

エピック

タスク説明必要なスキル
データを特定して優先順位を付けます。

移動するデータを特定します。大規模なオンプレミスのレガシーシステムには、移行したくないデータやコンプライアンス上の理由で移動できないデータに加え、移行したいコアデータが含まれる場合があります。データインベントリで、どのデータを最初にターゲットにするか決めるのに役立ちます。詳細については、「自動ポートフォリオ検出の開始方法」 を参照してください。

データエンジニア DBA
データの探索、インベントリ、バックアップを行います。

ユースケースに応じたデータの質、量、関連性を検証します。必要に応じて、データのバックアップまたはスナップショットを作成し、データのターゲット環境を確定します。

データエンジニア DBA
タスク説明必要なスキル
AWS クラウドで Starburst Enterprise を設定します。

データのカタログ化中に、マネージド Amazon EKSクラスターに Starburst Enterprise を設定します。詳細については、Starburst Enterprise リファレンスドキュメントの「Kubernetes によるデプロイ」を参照してください。これにより、 business-as-usualデータ移行の進行中に分析が可能になります。

AWS 管理者、アプリデベロッパー
Starburst をデータソースに接続します。 

データを特定し、Starburst Enterprise を設定した後、Starburst をデータソースに接続します。Starburst は、データソースからデータをSQLクエリとして直接読み取ります。詳細については、Starburst Enterprise リファレンスドキュメントを参照してください。

AWS 管理者、アプリデベロッパー
タスク説明必要なスキル
ETL パイプラインを構築して実行します。

データ移行プロセスを開始します。このアクティビティは、分析と同時に business-as-usual実行できます。移行には、サードパーティ製の製品または Starburst を使用できます。Starburst には、さまざまなソースのデータを読み書きする機能があります。詳細については、Starburst Enterprise リファレンスドキュメントを参照してください。

データエンジニア
データを検証します。

データを移行したら、データを検証して、必要なデータがすべて移動され、変更がないことを確認します。

データエンジニア、 DevOps エンジニア
タスク説明必要なスキル
データをカットオーバーします。

データの移行と検証が完了した後、データをカットオーバーできます。これには、Starburst のデータ接続リンクの変更が含まれます。オンプレミスのソースを指定する代わりに、新しいクラウドソースを指定してセマンティックビューを更新します。  詳細については、Starburst Enterprise リファレンスドキュメントの「コネクタ」を参照してください。

データエンジニア、カットオーバーのリーダー
ユーザーにロールアウトします。

データコンシューマーは、移行したデータソースから作業を開始します。このプロセスは、分析のエンドユーザーには表示されません。

カットオーバーのリーダー、データエンジニア

関連リソース

AWS マーケットプレイス

Starburst ドキュメント

その他のAWSドキュメント