Anhang: AWS-Datenquellen mit Microsoft-Power-BI-Unterstützung - Verwendung von Microsoft Power BI mit der AWS Cloud

Anhang: AWS-Datenquellen mit Microsoft-Power-BI-Unterstützung

Eine vollständige Liste der unterstützten Datenquellen wird von Microsoft bereitgestellt (siehe Power-BI-Datenquellen). Die folgenden Abschnitte für jede AWS-Datenquelle enthalten jedoch Anleitungen zur Verwendung und Konfiguration, die für einige Leser hilfreich sein können.

Amazon Redshift

Amazon Redshift ist ein vollständig verwalteter Petabyte-Data-Warehouse-Service in der AWS Cloud. Ein Data Warehouse von Amazon Redshift ist eine Sammlung von Datenverarbeitungsressourcen, den so genannten Knoten, die zu Gruppen, den so genannten Clustern, zusammengefasst werden. Jeder Cluster führt eine Amazon Redshift-Engine aus und enthält eine oder mehrere Datenbanken.

Sie sollten Amazon Redshift in Betracht ziehen, wenn:

  • Sie ein natives Data Warehouse in der Cloud erstellen oder zu diesem migrieren.

  • Sie möglicherweise von wenigen auf Hunderte von Terabyte skalieren müssen.

  • Sie den Power-BI-Benutzern ermöglichen möchten, transparent auf Daten aus dem in Amazon S3 gespeicherten Data Lake zuzugreifen und sie mit Tabellen im Data Warehouse zu verknüpfen.

  • Ihr Abfrage-Workload umfasst:

    • Abfragen, die die Aggregation für große Tabellen (mit mehreren Gigabyte oder Terabyte) berechnen.

    • Extrem komplexes SQL mit mehreren Joins und Unterabfragen.

    • Eine Mischung aus komplexen analytischen Abfragen und einfachen, stark gefilterten Abfragen, die in Dashboards verwendet werden.

Beachten Sie bei der Verwendung von Amazon Redshift mit Microsoft Power BI die folgenden Punkte:

  • Amazon Redshift wird nativ als Power-BI-Datenquelle sowohl im Microsoft-Power-BI-Desktop- als auch im Power-BI-Service unterstützt und beide Services unterstützen den Import- und den direkten Abfragemodus.

  • Während ein Redshift-Cluster in einem öffentlichen Subnetz gestartet und für den Zugriff über das Internet konfiguriert werden kann, zieht es die Mehrheit der Kunden vor, ihn in einem privaten Subnetz zu starten, um die Sicherheit zu erhöhen. Wenn Sie ein privates Subnetz verwenden, nutzen Sie das On-Premises-Datengateway, um vom Power-BI-Service aus eine Verbindung zu Amazon Redshift herzustellen.

  • Der Redshift-Konnektor unterstützt die Azure-AD-Authentifizierung in Power BI Desktop and Service.

  • Externe Tabellen, auf die über Spectrum zugegriffen wird, werden nicht anders behandelt als native Redshift-Tabellen, und Power BI hat keine Möglichkeit, sie zu unterscheiden. Stellen Sie beim Zugriff auf Daten in externen Tabellen Folgendes sicher:

    • Spalten, die Zeichenfolgen enthalten, werden im AWS-Glue-Datenkatalog als „VARCHAR“ und nicht als „STRING“ katalogisiert, andernfalls gibt Power BI den folgenden Fehler aus: Exception: OLE DB or ODBC error: [Expression.Error] We couldn't fold the expression to the data source. Please try a simpler expression..

    • Spalten mit komplexen Datentypen wie ARRAY werden nicht unterstützt. Wenn Spalten mit komplexen Datentypen verwendet werden, gibt Power BI den folgenden Fehler aus: Exception: ODBC: ERROR [42703] [Microsoft]Amazon Redshift Error occurred while trying to execute a query

      Wenn Sie sie in Ihr Modell aufnehmen müssen, können Sie entweder (in Amazon Redshift) die JSON-Serialisierung auf Benutzerebene aktivieren oder die komplexen Datentypen in einer SUPER-Spalte in einer nativen Tabelle speichern.

Amazon RDS

Amazon RDS macht es einfach, eine relationale Datenbank in der Cloud einzurichten, zu betreiben und zu skalieren. Amazon RDS ist für verschiedene Datenbank-Instance-Typen (optimiert für Arbeitsspeicher, Leistung oder E/A) verfügbar und bietet Ihnen sechs vertraute Datenbank-Engines zur Auswahl, einschließlich Amazon Aurora, PostgreSQL, MySQL, MariaDB, Oracle Database und SQL Server.

Sie sollten RDS verwenden, wenn:

  • Sie einen Betriebsdatenspeicher erstellen.

  • Sie ein Data Warehouse von SQL Server oder Oracle Database in die Cloud migrieren, aber nicht an einem Refactoring interessiert sind.

  • Ihr Abfrage-Workload umfasst:

    • Abfragen, die auf stark gefilterte Daten in Tabellen zugreifen, die einfach indiziert werden können.

    • Analytikabfragen für kleine bis mittelgroße Tabellen (Gigabyte).

    • Eine Mischung aus analytischen Abfragen mittlerer Komplexität und einfachen, stark gefilterten Abfragen, die in Dashboards verwendet werden.

Beachten Sie bei der Verwendung von Amazon RDS mit Microsoft Power BI die folgenden Punkte:

  • Amazon RDS bietet mehrere Datenbank-Engines wie SQL Server, MariaDB, MySQL, Oracle Database und PostgreSQL. Beachten Sie, dass die Datenbank-Engines im Power-BI-Desktop- und Power-BI-Service aufgeführt sind, nicht im Amazon-RDS-Service.

  • Verwenden Sie für Amazon Aurora den MySQL- oder PostgreSQL-Verbindungstyp, abhängig von der von Ihnen ausgewählten Datenbank-Engine.

  • Während eine Amazon-RDS-Instance in einem öffentlichen Subnetz gestartet und für den Zugriff über das Internet konfiguriert werden kann, zieht es die Mehrheit der Kunden vor, sie in einem privaten Subnetz zu starten, um die Sicherheit zu erhöhen. Wenn Sie ein privates Subnetz verwenden, nutzen Sie das On-Premises-Datengateway, um vom Power-BI-Service aus eine Verbindung zu RDS herzustellen.

  • Mit Amazon RDS können Sie mehrere Editionen von SQL Server (2012, 2014, 2016, 2017, und 2019) bereitstellen, einschließlich Express, Web, Standard und Enterprise.

Amazon Athena

Amazon Athena ist ein interaktiver Abfrageservice, der die Analyse von Daten in Amazon S3 mit Standard-SQL erleichtert. Athena ist für die Nutzung mit dem AWS-Glue-Datenkatalog vorkonfiguriert. Sie können damit ein einheitliches Metadaten-Repository für verschiedene Services erstellen, Datenquellen nach Schemata durchsuchen, den Datenkatalog mit neuen und geänderten Tabellen- und Partitionsdefinitionen füllen und das Schema-Versioning aufrechterhalten.

Sie sollten Athena als Datenquelle in Betracht ziehen, wenn:

  • Sie Ihren Data Lake direkt abfragen möchten.

  • Ihr Abfrage-Workload umfasst:

    • Abfragen, die die Aggregation für große Tabellen (mit mehreren Gigabyte oder Terabyte) berechnen.

    • Interaktives Ad-hoc-SQL für explorative Zwecke.

Beachten Sie bei der Verwendung von Amazon Athena mit Microsoft Power BI die folgenden Punkte:

  • Mit der Veröffentlichung von Microsoft Power BI im Juli 2021 wurde ein von Microsoft zertifizierter Konnektor für Amazon Athena eingeführt. Sie können den Microsoft-Power-BI-Konnektor für Amazon Athena verwenden, um Daten von Amazon Athena in Microsoft Power BI Desktop zu analysieren. Nachdem Sie Inhalte im Power-BI-Service veröffentlicht haben, können Sie das On-Premises-Datengateway von Microsoft verwenden, um den Inhalt durch On-Demand- oder geplante Aktualisierungen auf dem neuesten Stand zu halten.

  • Der Microsoft-Power-BI-Konnektor für Amazon Athena unterstützt sowohl den Import- als auch den direkten Abfragemodus für die Datenkonnektivität. Im Importmodus werden ausgewählte Tabellen und Spalten zur Abfrage in Power BI Desktop importiert. Im direkten Abfragemodus werden keine Daten in Power BI Desktop importiert oder kopiert. Stattdessen fragt Power BI Desktop die zugrunde liegende Datenquelle direkt ab.

  • Weitere Informationen zum Microsoft-Power-BI-Konnektor für Amazon Athena finden Sie unter Verwenden des Amazon Athena Power BI Connectors.

  • Beachten Sie, dass der Microsoft-Power-BI-Konnektor für Amazon Athena die Verwendung des Amazon-Athena-ODBC-Treibers und eine gültige ODBC-DSN-Konfiguration auf Ihrem System erfordert, um Amazon Athena abzufragen. Den neuesten ODBC-Treiber als Download und Konfigurationsinformationen finden Sie unter Herstellen einer Verbindung zu Amazon Athena mit ODBC.

  • Ein Tutorial zu den Konfigurationsschritten und bewährte Methoden bei der Verwendung des Microsoft-Power-BI-Konnektors für Amazon Athena finden Sie unter Schnelles Erstellen von Dashboards in Microsoft Power BI mit Amazon Athena.

Amazon OpenSearch Service (Nachfolger von Amazon Elasticsearch Service)

Sie können SQL verwenden, um Ihren Amazon OpenSearch Service abzufragen, anstatt die JSON-basierte Suchabfrage-DSL zu verwenden. Das Abfragen mit SQL ist nützlich, wenn Sie bereits mit der Sprache vertraut sind oder Ihre Domäne mit einer Anwendung integrieren möchten, die sie verwendet, z. B. Microsoft Power BI.

Sie sollten Amazon OpenSearch Service als Datenquelle in Betracht ziehen, wenn:

  • Sie halbstrukturierte Daten wie Protokolldateien oder JSON-Ausgaben haben und die Informationen schnell suchen, analysieren oder visualisieren müssen.

Beachten Sie bei der Verwendung von Amazon OpenSearch Service mit Microsoft Power BI die folgenden Punkte:

  • Für die Konnektivität mit Amazon OpenSearch Service ist der Open Database Connectivity (ODBC)-Treiber erforderlich, bei dem es sich um einen schreibgeschützten ODBC-Treiber für Windows und macOS handelt, mit dem Sie Business Intelligence (BI)- und Datenvisualisierungsanwendungen wie Tableau, Microsoft Excel und Power BI mit dem SQL-Plugin in Ihrem Cluster verbinden können. Der Treiber ist auf der Open Distro for Elasticsearch Getting Started & Downloads-Website verfügbar. Konfiguationsanweisungen finden Sie unter Configuring a DSN on Windows.

  • Derzeit wird nur der Importmodus unterstützt.

  • Für die Power-BI-Desktop-Konnektivität mit Amazon OpenSearch Service ist derzeit die Verwendung eines benutzerdefinierten Konnektors erforderlich. Weitere Informationen für den Einstieg finden Sie unter Connecting Open Distro For ElasticSearch to Microsoft Power BI Desktop.

  • Informationen für die ersten Schritte zur Konnektivität des Power-BI-Service mit Amazon OpenSearch Service über ein On-Premises-Datengateway von Microsoft finden Sie unter Connecting Open Distro For ElasticSearch to Microsoft Power BI Service.

AWS Lake Formation

Lake Formation hilft Ihnen beim Sammeln und Katalogisieren von Daten aus Datenbanken und Objektspeichern, beim Verschieben der Daten in Ihren neuen Data Lake von Amazon S3, beim Bereinigen und Klassifizieren Ihrer Daten mithilfe von Algorithmen für Machine Learning und beim sicheren Zugriff auf Ihre vertraulichen Daten. Ihre Benutzer können auf einen zentralen Datenkatalog zugreifen, der die verfügbaren Datensätze und ihre entsprechende Verwendung beschreibt. Die Benutzer verwenden diese Datensätze dann mit ihrer Auswahl an Analyse- und Machine-Learning-Services, wie Amazon Redshift, Amazon Athena und (in Beta) Amazon EMR for Apache Spark. Lake Formation baut auf den in AWS Glue verfügbaren Funktionen auf.

Sie sollten Lake Formation in Betracht ziehen, wenn Sie anstelle der herkömmlichen IAM-basierten Kontrollen einen differenzierten Zugriff (auf Zeilen- und Spaltenebene) auf Ihren Data Lake benötigen.

Beachten Sie bei der Verwendung von Lake Formation mit Microsoft Power BI die folgenden Punkte:

  • Um Daten aus dem Lake-Formation-Datenkatalog mit dem Power-BI-Desktop- oder dem Power-BI-Service abzufragen, verwenden Sie denselben Prozess und dieselbe Konfiguration wie beim Abfragen von Daten in Athena. Wenn Sie das Lake-Formation-Berechtigungsmodell verwenden, stellen Sie sicher, dass für die ODBC-DSN-Konfiguration für Amazon Athena der Eigenschaftsschlüssel „LakeformationEnabled“ auf den Wert „true“ (wahr) festgelegt ist. Dadurch wird der Amazon-Athena-ODBC-Treiber angewiesen, den Lake-Formation-Service zur Autorisierung anstelle von AWS Security Token Service direkt zu verwenden. Weitere Informationen finden Sie in der Dokumentation zu Herstellen einer Verbindung zu Amazon Athena mit ODBC.

  • Die Einstellung „Use only IAM access control“ (Nur IAM-Zugriffskontrolle verwenden), die für die Kompatibilität mit dem vorhandenen Datenkatalogverhalten aktiviert ist, bietet vollständige Kompatibilität.

  • Das Upgrade von AWS-Glue-Datenberechtigungen auf das Lake-Formation-Modell kann zu Inkompatibilitäten führen und sollte vor der Verwendung getestet werden. Vorläufige Tests zeigen, dass das Erteilen oder Verweigern auf Spaltenebene berücksichtigt wird. Die Filterung auf Zeilen- und Zellebene wurde von den Autoren jedoch nicht getestet, da sich diese noch in der Vorschau befindet und Änderungen vorbehalten sind.