附錄:Microsoft Power BI 支援的 AWS 資料來源 - 搭配使用 Microsoft Power BI 和 AWS 雲端

附錄:Microsoft Power BI 支援的 AWS 資料來源

受支援的資料來源完整清單雖然由 Microsoft 提供 (請參閲 Power BI 資料來源);但是,下方每個 AWS 資源區段皆提供能協助某些讀者的使用和設定指導。

Amazon Redshift

Amazon Redshift 是 AWS 雲端中全受管的 PB 級資料倉儲服務。Amazon Redshift 資料倉儲是稱為節點的運算資源的集合,組織成稱為叢集的群組。每個叢集皆執行 Amazon Redshift 引擎並包含一或多個資料庫。

在以下情況下,您應考慮使用 Amazon Redshift:

  • 您正在建置或遷移到原生雲端資料倉儲。

  • 您可能需要從幾 TB 擴展到數百 TB。

  • 您希望允許 Power BI 使用者透明地從存放在 Amazon S3 的資料湖中存取資料,並將其與資料倉儲中的資料表聯結。

  • 您的查詢工作負載包括:

    • 在大型 (多 GB 和多 TB) 的資料表上運算彙總的查詢。

    • 具有多個聯結和子查詢的極複雜 SQL。

    • 在儀表板中混合使用複雜的分析查詢和簡單且篩選度高的查詢。

將 Amazon Redshift 與 Microsoft Power BI一起使用時,請記住以下幾點:

  • Amazon Redshift 以作為 Power BI 資料來源的形式在 Microsoft Power BI Desktop 和 Power BI 服務中受到原生支援,並且都支援匯入和直接查詢模式。

  • 雖然 Redshift 叢集可以在公有子網路中啟動並設定為允許從網際網路中存取,但大多數客戶傾向於在私有子網路中啟動該叢集以提高安全性。使用私有子網路時,請使用內部部署資料閘道從 Power BI 服務連線到 Amazon Redshift。

  • Redshift 連接器支援 Power BI Desktop 和服務中的 Azure AD 身分驗證。

  • 透過 Spectrum 存取的外部資料表與原生 Redshift 資料表的處理方式並無不同,Power BI 無法區分這兩者。存取外部資料表的資料時,請確保:

    • 包含字元字串的欄在 AWS Glue 資料型錄中會編列為 ‘VARCHAR’,而不是 ‘STRING’,否則 Power BI 將擲回以下錯誤: Exception: OLE DB or ODBC error: [Expression.Error] We couldn't fold the expression to the data source. Please try a simpler expression..

    • 不支援包含複雜資料類型 (例如 ARRAY) 的欄。使用包含複雜資料類型的欄時,Power BI 將擲回以下錯誤:Exception: ODBC: ERROR [42703] [Microsoft]Amazon Redshift Error occurred while trying to execute a query

      如果您需要將這些欄包含在模型中,您可以在使用者層級上啟用 (在 Amazon Redshift 中) JSON 序列化,或是將複雜資料類型存放在原生資料表中的 SUPER 欄中。

Amazon RDS

Amazon RDS 可讓使用者在雲端中,輕鬆地設置、操作和擴展關聯式資料庫。針對記憶體、效能或輸入/輸出進行優化的多種資料庫執行個體類型都提供 Amazon RDS,並可讓您選擇六種熟悉的資料庫引擎,包括 Amazon Aurora、PostgreSQL、MySQL、MariaDB、Oracle Database 和 SQL Server。

在以下情況下,您應該考慮使用 RDS:

  • 您正在建置可操作的資料存放區。

  • 您正在將 SQL Server 或 Oracle Database 資料倉儲遷移到雲端,但不想執行重構作業。

  • 您的查詢工作負載包括:

    • 在可輕鬆編製索引的資料表上存取高度篩選資料的查詢。

    • 中小型資料表 (GB) 上的分析查詢。

    • 在儀表板中混合使用中度的複雜分析查詢和簡單的高度篩選查詢。

將 Amazon RDS 與 Microsoft Power BI 一起使用時,請記住以下幾點:

  • Amazon RDS 提供多個資料庫引擎,包括 SQL Server、MariaDB、MySQL、Oracle Database 和 PostgreSQL。請注意,資料庫引擎會列在 Power BI Desktop 和 Power BI 服務中,而不是 Amazon RDS 服務中。

  • 對於 Amazon Aurora,請使用 My SQL 或 PostgreSQL 連線類型,視您選擇的資料庫引擎而定。

  • 雖然 Amazon RDS 執行個體可以在公有子網路中啟動並設定為允許從網際網路中存取,但大多數客戶傾向於在私有子網路中啟動該叢集以提高安全性。使用私有子網路時,請使用內部部署資料閘道從 Power BI 服務連線到 RDS。

  • 使用 Amazon RDS 時,您可以部署多個 SQL Server 版本 (2012、2014、2016、2017 和 2019),包含 Express、Web、Standard 和 Enterprise。

Amazon Athena

Amazon Athena 是一種互動式查詢服務,可讓您使用標準 SQL 輕鬆分析 Amazon S3 中的資料。Athena 與 AWS Glue 資料型錄有立即可用的整合,可讓您跨多個服務建立一致的中繼資料儲存庫、網路爬取資料來源以探索結構描述,並將新的和修改過的表格及分區定義填入資料型錄,以及維護結構描述版本控制。

在以下情況下,您應該將 Athena 視為資料來源:

  • 您希望直接查詢您的資料湖。

  • 您的查詢工作負載包括:

    • 在大型 (多 GB 和多 TB) 的資料表上運算彙總的查詢。

    • 互動式臨時 (ad hoc) SQL,用於探索目的。

將 Amazon Athena 與 Microsoft Power BI 一起使用時,請記住以下幾點:

  • 隨着 2021 年 7 月發佈的 Microsoft Power BI,Microsoft 認證的連接器也在 Amazon Athena 中引入。您可以使用適用於 Amazon Athena 的 Microsoft Power BI 連接器,在 Microsoft Power BI Desktop 中分析來自 Amazon Athena 的資料。將內容發佈到 Power BI 服務後,您就可以使用 Microsoft 內部部署資料閘道,以隨需或排定的重新整理將內容維持在最新狀態。

  • 適用於 Amazon Athena 的 Microsoft Power BI 連接器支援匯入和直接查詢資料連線模式。在匯入模式下,選取的資料表和欄將匯入 Power BI Desktop 以進行查詢。在直接查詢模式下,不會將任何資料匯入或複製到 Power BI Desktop 中,而是 Power BI Desktop 直接查詢基礎資料來源。

  • 有關適用於 Amazon Athena 的 Microsoft Power BI 連接器的詳細資訊,請參閲使用 Amazon Athena Power BI 連接器

  • 請注意,適用於 Amazon Athena 的 Microsoft Power BI 連接器需要使用 Amazon Athena ODBC 驅動程式和系統上有效的 ODBC DSN 組態,才能查詢 Amazon Athena。若需要下載最新的 ODBC 驅動程式和組態資訊,請參閲使用 ODBC 連線到 Amazon Athena

  • 如需使用適用於 Amazon Athena 的 Microsoft Power BI 連接器時的設定步驟和最佳實務教學課程,請參閲 使用 Amazon Athena 在 Microsoft Power BI 上快速建立儀表板

Amazon OpenSearch Service (Amazon Elasticsearch Service 的後繼者)

您可以使用 SQL 來查詢您的 Amazon OpenSearch Service,而不是使用以 JSON 為基礎的搜尋查詢 DSL。如果您已熟悉 SQL 語言,或想要將您的網域與使用 SQL 的應用程式 (例如 Microsoft Power BI) 整合,則使用 SQL 執行查詢會非常實用。

在以下情況下,您應將 Amazon OpenSearch Service 視為資料來源:

  • 您擁有半結構化資料,例如日誌檔案或 JSON 輸出,並且需要快速搜尋、分析或視覺化資訊。

將 Amazon OpenSearch Service 與 Microsoft Power BI 一起使用時,請記住以下幾點:

AWS Lake Formation

Lake Formation 就會從資料庫和物件儲存系統協助您收集資料並編列型錄、將資料移至新的 Amazon S3 資料湖、運用機器學習演算法清理和分類資料,同時保護敏感資料的存取。您的使用者可以存取集中式資料型錄,這可描述可用的資料集及其適當的用量。接著,您的使用者可選擇分析與機器學習服務,例如 Amazon RedshiftAmazon Athena 和 (Beta 版) Amazon EMR for Apache Spark,來充分利用這些資料集。Lake Formation 建置於 AWS Glue 中的可用功能。

如果您需要對資料湖進行精細 (列和欄) 層級的存取,而不是傳統的 IAM 型控管,則您應考慮使用 Lake Formation。

將 Lake Formation 與 Microsoft Power BI 一起使用時,請記住以下幾點:

  • 若要使用 Power BI Desktop 或 Power BI 服務來查詢 Lake Formation 資料型錄中的資料,請使用與在 Athena 中查詢資料時相同的程序和組態。如果您正在使用 Lake Formation 許可模型,請確定 Amazon Athena 的 ODBC DSN 組態已將 “LakeformationEnabled” 屬性金鑰的值設定為 “true”。這慧告訴 Amazon Athena ODBC 驅動程式使用 Lake Formation 服務進行授權,而不是直接使用 AWS Security Token Service。如需詳細資訊,請參閲使用 ODBC 連線到 Amazon Athena 的文件。

  • 為了與現有資料型錄行為相容而啟用的「僅使用 IAM 存取控制」設定將會提供完整相容性。

  • 將 AWS Glue 資料許可升級到 Lake Formation 模型可能會導致不相容,應在使用之前進行測試。初步測試顯示,欄層級的授予或拒絕已完成,但作者尚未測試列和儲存格層級的篩選,因為這仍處於預覽狀態,並且可能會有所變更。