付録: Microsoft Power BI 対応 AWS データソース - AWS クラウドで Microsoft Power BI を使用する

付録: Microsoft Power BI 対応 AWS データソース

サポートされているデータソースの完全なリストは Microsoft から提供されています (Power BI データソースを参照)。ただし、各 AWS データソースの以下のセクションに、一部の読者に役立つ使用法と設定のガイダンスが記載されています。

Amazon Redshift

Amazon Redshift は、AWS クラウド内でのフルマネージド型、ペタバイトスケールのデータウェアハウスサービスです。Amazon Redshift データウェアハウスは、ノードと呼ばれるコンピューティングリソースのコレクションであり、これらはクラスターと呼ばれるグループを構成します。各クラスターは Amazon Redshift エンジンを実行し、1 つ以上のデータベースを含みます。

以下のような場合は、Amazon Redshift の使用をご検討ください。

  • ネイティブのクラウドデータウェアハウスを構築または移行している。

  • 数テラバイトから数百テラバイトまでスケールする必要があるかもしれない。

  • Power BI ユーザーが Simple Storage Service (Amazon S3) に格納されているデータレイクからデータに透過的にアクセスし、データウェアハウス内のテーブルと結合できるようにしたい。

  • クエリワークロードに次のものが含まれる。

    • 大きな (数ギガバイトや数テラバイト) テーブルで集計を計算するクエリ。

    • 複数の結合とサブクエリを持つ、非常に複雑な SQL。

    • 複雑な分析クエリと、ダッシュボードで使用される単純で高度にフィルターされたクエリが混在している。

Amazon Redshift を Microsoft Power BI とともに使用する場合は、次の点に留意してください。

  • Amazon Redshift は、Microsoft Power BI Desktop と Power BI サービスの両方で、Power BI データソースとしてネイティブにサポートされており、それぞれがインポートモードとダイレクトクエリモードをサポートしています。

  • Redshift クラスターは、パブリックサブネットで起動しインターネットからのアクセスを許可するように設定できますが、大半のお客様は、セキュリティ強化のためにプライベートサブネットで起動することを好みます。プライベートサブネットを使用する場合は、オンプレミスのデータゲートウェイを使用して Power BI サービスから Amazon Redshift に接続します。

  • Redshift コネクタは Power BI Desktop およびサービスで Azure AD 認証をサポートします。

  • Spectrum 経由でアクセスされる外部テーブルは、ネイティブの Redshift テーブルとまったく同じように扱われ、Power BI にはそれらを区別する手段がありません。外部テーブルのデータにアクセスするときは、次の点を確認してください。

    • 文字列を含む列が、AWS Glue データカタログで「STRING」ではなく「VARCHAR」としてカタログ化されていること。それ以外の場合、Power BI は次のエラーをスローします。 Exception: OLE DB or ODBC error: [Expression.Error] We couldn't fold the expression to the data source. Please try a simpler expression..

    • ARRAY などの複雑なデータ型を含む列はサポートされていません。複雑なデータ型を含む列を使用すると、Power BI は次のエラーをスローします。Exception: ODBC: ERROR [42703] [Microsoft]Amazon Redshift Error occurred while trying to execute a query

      モデルに含める必要がある場合は、JSON シリアル化をユーザーレベルで (Amazon Redshift で) 有効にするか、複雑なデータ型をネイティブテーブルの SUPER 列に格納します。

Amazon RDS

Amazon RDS を利用すると、リレーショナルデータベースをクラウドに簡単に設定、操作、スケーリングできます。Amazon RDS は、メモリ、パフォーマンス、または I/O に最適化されたいくつかのデータベースインスタンスタイプで利用でき、Amazon Aurora、PostgreSQL、MySQL、MariaDB、Oracle データベース、SQL Server など、6 つの使い慣れたデータベースエンジンから選択できます。

以下のような場合は、RDS の使用をご検討ください。

  • オペレーショナルデータストアを構築している。

  • SQL Server または Oracle Database データウェアハウスをクラウドに移行しているが、リファクタリングは不要である。

  • クエリワークロードに次のものが含まれる。

    • 簡単にインデックスを作成できるテーブル上の高度にフィルターされたデータにアクセスするクエリ。

    • 小中規模のテーブル (ギガバイト) に対する分析クエリ。

    • やや複雑な分析クエリと、ダッシュボードで使用される単純で高度にフィルターされたクエリが混在している。

Amazon RDS を Microsoft Power BI とともに使用する場合は、次の点に留意してください。

  • Amazon RDS には、SQL Server、MariaDB、MySQL、Oracle Database、PostgreSQL など、複数のデータベースエンジンが用意されています。データベースエンジンは、Amazon RDS サービスではなく、Power BI Desktop および Power BI サービスにリストされていることに注意してください。

  • Amazon Aurora の場合は、選択したデータベースエンジンに応じて My SQL または PostgreSQL 接続タイプを使用します。

  • Amazon RDS インスタンスは、パブリックサブネットで起動しインターネットからのアクセスを許可するように設定できますが、大半のお客様は、セキュリティ強化のためにプライベートサブネットで起動することを好みます。プライベートサブネットを使用する場合は、オンプレミスのデータゲートウェイを使用して Power BI サービスから RDS に接続します。

  • Amazon RDS では、Express、Web、Standard、Enterprise など複数のエディションの SQL Server (2012、2014、2016、2017、および 2019) をデプロイできます。

Amazon Athena

Amazon Athena はインタラクティブなクエリサービスで、Simple Storage Service (Amazon S3) 内のデータを標準 SQL を使用して簡単に分析できるようになります。Athena は初期状態で AWS Glue データカタログと統合されており、さまざまなサービスにわたるメタデータの統合リポジトリを作成できます。データソースのクロールとスキーマの解析、新規および修正したテーブル定義とパーティション定義のデータカタログへの入力、スキーマのバージョニング保持が可能です。

以下のような場合は、Athena をデータソースとしてご検討ください。

  • データレイクを直接クエリしたい。

  • クエリワークロードに次のものが含まれる。

    • 大きな (数ギガバイトや数テラバイト) テーブルで集計を計算するクエリ。

    • 予備的な対話型アドホック SQL。

Amazon Athena を Microsoft Power BI とともに使用する場合は、次の点に留意してください。

  • 2021 年 7 月の Microsoft Power BI のリリースに伴い、Amazon Athena 用に Microsoft 認定コネクタが導入されました。Amazon Athena 用の Microsoft Power BI コネクタを使用して、Microsoft Power BI Desktop で Amazon Athena からのデータを分析できます。Power BI サービスにコンテンツを公開した後は、Microsoft オンプレミスデータゲートウェイを使用して、オンデマンドまたはスケジュールされた更新によってコンテンツを最新の状態に保つことができます。

  • Amazon Athena 用 Microsoft Power BI コネクタは、インポートとダイレクトクエリ両方のデータ接続モードをサポートしています。インポートモードでは、選択したテーブルと列が Power BI Desktop にインポートされ、クエリが実行されます。ダイレクトクエリモードでは、Power BI Desktop にデータがインポートまたはコピーされることはなく、Power BI Desktop は基になるデータソースを直接クエリします。

  • Amazon Athena 用の Microsoft Power BI コネクタの詳細については、「Amazon Athena Power BI コネクタの使用」を参照してください。

  • Amazon Athena 用 Microsoft Power BI コネクタを使用するには、Amazon Athena ODBC ドライバーと、システム上の有効な ODBC DSN 設定を使用して Amazon Athena にクエリを実行する必要があることにご注意ください。最新の ODBC ドライバーのダウンロード、および設定情報については、「ODBC を使用した Amazon Athena への接続」を参照してください。

  • Amazon Athena 用 Microsoft Power BI コネクタを使用する場合の設定手順のチュートリアルとベストプラクティスについては、Creating dashboards quickly on Microsoft Power BI using Amazon Athena を参照してください。

Amazon OpenSearch Service (Amazon Elasticsearch Service の後継サービス)

JSON ベースの検索クエリ DSL を使用する代わりに、SQL を使用して Amazon OpenSearch Service をクエリできます。SQL を使用したクエリは、既に言語に慣れている場合や、Microsoft Power BI などの SQL を使用するアプリケーションとドメインを統合する場合に便利です。

以下のような場合は、Amazon OpenSearch Service をデータソースとしてご検討ください。

  • ログファイルや JSON 出力などの半構造化データがあり、その情報をすばやく検索、分析、または可視化する必要がある。

Amazon OpenSearch サービスを Microsoft Power BI とともに使用する場合は、次の点に留意してください。

  • Amazon OpenSearch Service への接続には、Open Database Connectivity (ODBC) ドライバーが必要です。ODBC ドライバーは Windows および macOS 用の読み取り専用 ODBC ドライバーで、ビジネスインテリジェンス (BI) と TableauMicrosoft Excel などのデータ可視化アプリケーションを接続できます。また、 Power BI をクラスター上の SQL プラグインに接続します。ドライバーは、Getting Started & Downloads ウェブサイトで入手できます。構成手順については、Configuring a DSN on Windows を参照してください。

  • 現在は、インポートモードのみがサポートされています。

  • Amazon OpenSearch Service への Power BI Desktop 接続には現在、カスタムコネクタを使用する必要があります。開始するには、Connecting Open Distro For ElasticSearch to Microsoft Power BI Desktop を参照してください。

  • Microsoft オンプレミスデータゲートウェイを介した Amazon OpenSearch Service への Power BI サービスの接続の場合は、開始するには Connecting Open Distro For ElasticSearch to Microsoft Power BI Service を参照してください。

AWS Lake Formation

Lake Formation は、データベースとオブジェクトストレージからデータを収集およびカタログ化し、データを新しい Simple Storage Service (Amazon S3) データレイクに移動し、機械学習アルゴリズムを使用してデータをクリーンアップおよび分類し、機密データへのアクセスを保護します。これらのタスクが完了すると、ユーザーは、一元化されたデータカタログにアクセスできるようになります。このデータカタログは、利用可能なデータセットおよびその適切な使用方法を示すものです。ユーザーはその後、Apache Spark 向け Amazon RedshiftAmazon Athena、および (ベータ版) Amazon EMR などの分析や機械学習サービスでデータセットを利用します。Lake Formation は、AWS Glue で利用できる機能を基盤として構築されています。

データレイクに対して、従来の IAM ベースのコントロールではなく、きめ細かい (行と列) レベルのアクセスが必要な場合は、Lake Formation をご検討ください。

Microsoft Power BI で Lake Formation を使用する場合は、次の点に留意してください。

  • Power BI Desktop または Power BI サービスを使用して Lake Formation データカタログからデータをクエリするには、Athena のデータのクエリと同じプロセスと設定を使用します。Lake Formation アクセス許可モデルを使用する場合は、Amazon Athena の ODBC DSN 設定で「LakeformationEnabled」プロパティキーの値が「true」に設定されていることを確認してください。これにより、Amazon Athena ODBC ドライバーが認可に AWS Security Token Service を直接使用するのではなく、Lake Formation サービスを使用するよう指示します。詳細については、「ODBC を使用した Amazon Athena への接続」のドキュメントを参照してください。

  • 既存のデータカタログの動作との互換性のために「IAM アクセス制御のみを使用」設定を有効にすると、完全な互換性が得られます。

  • AWS Glue データアクセス許可を Lake Formation モデルにアップグレードすると、非互換性が生じる可能性があるため、使用前にテストする必要があります。予備テストでは、列レベルの許可または拒否が受け入れられていることが示されていますが、行およびセルレベルのフィルタリングはまだプレビュー中であり、変更される可能性があるため、作成者によるテストは行われていません。