為 Amazon 紅移創建和運行亞馬遜 DataZone 數據源 - Amazon DataZone

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

為 Amazon 紅移創建和運行亞馬遜 DataZone 數據源

在亞馬遜中 DataZone,您可以建立 Amazon Redshift 資料來源,以便從 Amazon Redshift 資料倉儲匯入資料庫表格和檢視的技術中繼資料。若要為 Amazon Redshift 新增亞馬遜 DataZone 資料來源,來源資料倉儲必須已存在於 Amazon Redshift 中。

當您建立和執行 Amazon Redshift 資料來源時,您可以將來源 Amazon Redshift 資料倉儲中的資產新增到您的 Amazon DataZone 專案的庫存。您可以按照設定的排程或隨需執行 Amazon Redshift 資料來源,以建立或更新資產的技術中繼資料。在資料來源執行期間,您可以選擇性地選擇將專案庫存資產發佈到 Amazon DataZone 目錄,讓所有網域使用者都能探索這些資產。您也可以在編輯庫存資產的業務中繼資料後發佈資產。網域使用者可以搜尋和探索您已發佈的資產,並要求訂閱這些資產。

若要新增亞 Amazon Redshift 資料來源
  1. 導覽至 Amazon 資 DataZone 料入口網站 URL,然後使用單一登入 (SSO) 或您的登入資料 AWS 登入。如果您是 Amazon DataZone 管理員,則可以瀏覽至 https://console.aws.amazon.com/datazone 的 Amazon DataZone 主控台,並使用建立網域的位 AWS 帳戶 置登入,然後選擇開啟資料入口網站

  2. 從頂端導覽窗格中擇 [選取專案],然後選取要新增資料來源的專案。

  3. 導覽至專案的「資料」頁籤。

  4. 從左側導覽窗格中選擇 [資料來源],然後選擇 [建立資料來源]。

  5. 設定下列欄位:

    • 名稱 — 資料來源名稱。

    • 描述」— 數据源描述。

  6. 在 [資料來源類型] 下,選擇 [Amazon Redshift]。

  7. 「選取環境」下,指定要在其中發佈 Amazon Redshift 表格的環境。

  8. 視您選取的環境而定,Amazon DataZone 會直接從環境自動套用 Amazon Redshift 登入資料和其他參數,或提供您選擇自己的登入資料的選項。

    • 如果您選擇的環境只允許從環境的預設 Amazon Redshift 架構進行發佈,亞馬遜 DataZone 將自動套用 Amazon Redshift 登入資料和其他參數,包括 Amazon Redshift 叢集或工作群組名稱、 AWS 密碼、資料庫名稱和結構描述名稱。您無法編輯這些自動填入的參數。

    • 如果您選取的環境不允許發佈任何資料,您將無法繼續建立資料來源。

    • 如果您選取允許從任何結構描述發佈資料的環境,您將看到使用該環境中的登入資料和其他 Amazon Redshift 參數的選項,或是輸入您自己的登入資料/參數。

  9. 如果您選擇使用自己的認證來建立資料來源,請提供下列詳細資訊:

    • 在「提供亞馬遜 Redshift 登入資料」下,選擇要使用佈建的 Amazon Redshift 叢集還是使用 Amazon Redshift 無伺服器工作區做為您的資料來源。

    • 根據您在上述步驟中的選擇,從下拉式功能表中選擇 Amazon Redshift 叢集或工作區,然後在 AWS Secrets Manager 中選擇要用於身份驗證的密碼。您可以選擇現有密碼或建立新密碼。

    • 為了讓現有密碼出現在下拉式清單中,請確定您在 AWS Secret Manager 中的密碼包含下列標籤 (機碼/值):

      • AmazonDataZoneProject: <projectID>

      • AmazonDataZoneDomain: <domainID>

      如果您選擇建立新密碼,則會自動使用上述標籤來標記密碼,而且不需要額外的步驟。如需詳細資訊,請參閱 < 儲存資料庫認證 > AWS Secrets Manager。

      提供用於建立資料來源的 AWS 密碼中的 Amazon Redshift 使用者必須SELECT擁有要發佈之資料表的許可。如果您希 DataZone 望 Amazon 也代表您管理訂閱(訪問),則 AWS 密碼中的數據庫用戶還必須具有以下許可:

      • CREATE DATASHARE

      • ALTER DATASHARE

      • DROP DATASHARE

  10. 在「資料選取」下,提供 Amazon Redshift 資料庫、結構描述,然後輸入您的表格或檢視選取準則。例如,如果您選擇「包含」並輸入*corporate,資產將包含所有以該字結尾的來源表格corporate

    您可以為單一資料庫中的資料表新增多個包含規則。您也可以使用 [新增其他資料庫] 按鈕來新增多個資料庫

  11. 選擇下一步

  12. 對於「發佈」設定,請選擇是否可立即在資料目錄中探索資產。如果您只將它們新增至詳細目錄,您可以稍後選擇訂閱條款,並將其發佈到業務資料目錄。如需詳細資訊,請參閱 管理現有 Amazon DataZone 資料來源

  13. 對於自動產生商家名稱,請選擇是否要在資產發佈和從來源更新時自動產生中繼資料。

  14. (選擇性) 對於中繼資料表單,請新增表單以定義資產匯入 Amazon 時收集和儲存的中繼資料 DataZone。如需詳細資訊,請參閱 建立、編輯或刪除中繼資料表單

  15. 對於「執行」偏好設定,請選擇執行資料來源的時間。

    • 排程執行 — 指定執行資料來源的日期和時間。

    • 按需執行 — 您可以手動啟動資料來源執行。

  16. 選擇下一步

  17. 檢閱資料來源組態,然後選擇 [建立]。

注意

建立 Amazon Redshift 資料來源時,Amazon 會 DataZone 授予用於建立資料來源的環境唯讀存取權,以存取資料來源中使用的 Amazon Redshift 結構描述中的所有表格。您可以在環境的詳細資料頁面上的資料來源下監視這些授權的狀態。

使用與用於建立環境的不同 Amazon Redshift 叢集或無伺服器工作群組時,必須確保將以下 AWS 標記新增到叢集或工作群組。這對於環境使用者才能在 Amazon Redshift 查詢編輯器 V2 中檢視授與的資料庫是必要的:DataZoneDiscoverable_${domainId}: true

對於亞馬遜目前版本之前建立的環境 DataZone,專案成員將無法在 Amazon Redshift 中看到授予的表格。