Amazon DataZone 術語和概念 - Amazon DataZone

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

Amazon DataZone 術語和概念

開始使用 Amazon 時 DataZone,請務必了解其關鍵概念、術語和元件。

Amazon DataZone 組件

Amazon DataZone 包括以下四個主要組成部分:

  • 業務資料目錄-您可以使用此元件,在整個組織中針對具有業務情境的資料進行分類,從而使組織中的每個人都能快速搜尋和瞭解資料。

  • 發布和訂閱工作-您可以使用這些自動化工作以自助服務方式保護生產者和消費者之間的數據,並確保組織中的每個人都可以訪問正確的數據以達到正確的目的。

  • 項目和環境

    • 在 Amazon DataZone 專案中,是以商業使用案例為基礎的人員群組、資產 (資料) 以及用於簡化分析存取的工具。 AWS 專案提供專案成員可以協同合作、交換資料和共用資產的區域。默認情況下,項目是進行設置的,以便只有明確添加到項目中的人才能訪問其中的數據和分析工具。專案管理根據專案政策產生的資產的擁有權,以供資料使用者存取。

    • 在 Amazon DataZone 專案中,環境是零或多個已設定資源的集合 (例如,Amazon S3 儲存貯體、資 AWS Glue 料庫或 Amazon Athena 工作群組),可在其上操作一組指定的 IAM 主體 (例如,具有參與者權限的使用者)。

  • 資料入口網站 ( AWS 管理主控台外)-這是一個以瀏覽器為基礎的 Web 應用程式,不同的使用者可以在其中以自助服務的方式前往目錄、探索、控管、共用和分析資料。資料入口網站會透過 IAM 登入資料或身分供應商提供的現有登入資料來驗證使用者。 AWS IAM Identity Center

什麼是 Amazon DataZone 域名?

您可以使用 Amazon DataZone 網域來組織資產、使用者及其專案。透過將其他 AWS 帳戶與 Amazon DataZone 網域建立關聯,您可以將資料來源整合在一起。然後,您可以將資產從這些資料來源發佈到您的網域目錄,並使用中繼資料表單和詞彙表,以改善中繼資料的完整性和品質。您也可以搜尋和瀏覽這些資產,以查看網域中發佈的資料。此外,您還可以加入專案以與其他使用者共同作業、訂閱資產,以及使用專案環境存取分析工具,包括 Amazon Athena 和 Amazon Redshift。Amazon DataZone 網域可讓您彈性反映組織結構的資料和分析需求,無論是為企業建立單一 Amazon 網 DataZone 域,還是為不同業務單位建立多個 Amazon DataZone 網域。

什麼是 Amazon DataZone 項目和環境?

Amazon 透過建立以使用案例為基礎的團隊、工具和資料分組, DataZone 讓團隊和分析使用者能夠在專案上進行協作。

  • 在 Amazon 中 DataZone,專案可讓一組使用者在涉及發佈、探索、訂閱和使用 Amazon DataZone 目錄中的資料的各種商業使用案例上進行協作。專案成員使用 Amazon DataZone 目錄中的資產,並使用一或多個分析工作流程產生新資產。專案支援資料入口網站內的下列活動:

    • 專案擁有者可以新增具有擁有者和參與者權限的成員

    • 專案成員可以是 SSO 使用者、SSO 群組和 IAM 使用者

    • 專案成員可以要求訂閱資料目錄中的資產

      訂閱批准提供給項目

  • 在 Amazon DataZone 專案中,環境是零或多個已設定資源 (例如 Amazon S3、資 AWS Glue 料庫或 Amazon Athena 工作群組) 的集合,其中包含一組可在這些資源上操作的 IAM 主體。環境是透過使用環境設定檔建立的,這些設定檔是預先設定的資源集和藍圖,提供可重複使用的範本來建立環境。環境設定檔定義設定,例如部署環境的 AWS 帳戶 或區域。

什麼是 Amazon DataZone 藍圖?

建立環境的藍圖定義了環境所屬專案的 AWS 工具和服務 (例如 Amazon Redshift) 成員在處理 Amazon DataZone 目錄中的資產時, AWS Glue 可以使用哪些工具和服務。

在目前版本的 Amazon 中 DataZone,支援下列預設藍圖:

藍圖名稱 描述 建立的資源
資料湖藍圖

讓 Amazon DataZone 專案成員能夠在環境中啟動資料湖生產者和消費者服務。

身為消費者,它可讓 Amazon DataZone 專案成員直接在 Amazon Athena 和其他支援 Lake 格式化的查詢引擎中,存取湖泊格式化管理資產的「唯讀」副本。

作為生產者,它使 Amazon DataZone 項目成員能夠使用 Amazon Athena 創建新的 LakeFormation受管表格,並將其發佈到亞馬遜 DataZone目錄。

為使用者提供使用 Amazon Athena 建立和查詢 Lake Formation 資料表的功能。Amazon Athena 工作群組、具有「唯讀」Lake Formation 許可的 AWS Glue 資料庫、「唯讀」IAM 許可,以及存取由專案管理的 Amazon S3。 AWS Glue 具有「創建」和「授予」Lake Formation 權限,「讀取」和「寫入」IAM 許可,具有標記的 AWS Glue ETL(提取,轉換和加載)的數據庫。
資料倉儲藍圖

身為消費者,此藍圖可讓 Amazon DataZone 專案成員連線到自己的 Amazon Redshift 叢集,以查詢遠端資料存放區,以及建立和存放新的資料集。

身為生產者,此藍圖可讓 Amazon DataZone 專案成員連接到自己的 Amazon Redshift 叢集,以查詢遠端資料存放區、建立新資料集,並將其發佈到 Amazon DataZone 目錄。

存取 Amazon Redshift 查詢編輯器、從 Amazon DataZone 目錄「讀取」存取訂閱的資料來源,以及在已設定的 Amazon Redshift 叢集中建立本機資產的功能。存取 Amazon Redshift 查詢編輯器、從 Amazon DataZone 目錄「讀取」存取訂閱的資料來源,以及從已設定的 Amazon Redshift 叢集建立和發佈資產的功能。
Amazon Sageemaker 藍圖

此藍圖可協助資料生產者和消費者順暢切換 SageMaker 至 Amazon,以便在機器學習 (ML) 專案上進行協作,同時強制對資料和 ML 資產執行存取控管。透過 Amazon DataZone 和 Amazon 之間的全新內建整合 SageMaker,資料消費者和生產者可以簡化基礎設施設定之間的 ML 管理、針對商業計劃進行協作,以及輕鬆控管資料和機器學習資產。

您可以建立可以在 Amazon 中搜尋、訂閱和發佈資料和 ML 資產的 Amazon SageMaker 網域 DataZone。也可以根據配置訂閱並發佈到 AWS Glue 資料庫和湖泊形成。

除了內建藍圖之外,您還可以啟用自訂 AWS 服務藍圖,以便將 Amazon 設定 DataZone 為使用您在組織中已設定的現有 IAM 角色和 AWS 服務。如需詳細資訊,請參閱 在 Amazon 中使用自定義 AWS 服務藍圖 DataZone

什麼是 Amazon DataZone 庫存和發佈工作流程?

建立專案庫存資產

為了使用 Amazon 對數據 DataZone 進行分類,您必須首先將數據(資產)作為 Amazon 項目的庫存 DataZone。建立專案的庫存,只有該專案的成員才能找到資產。除非明確發佈,否則並非所有網域使用者都可以在搜尋/瀏覽中使用專案庫存資產。在目前版本的 Amazon 中 DataZone,您可以使用下列方式將資產新增至專案庫存:

  • 透過資料入口網站或使用 Amazon DataZone API 建立和執行資料來源。在目前版本的 Amazon 中 DataZone,您可以為 AWS Glue 和 Amazon Redshift 建立和執行資料來源。透過建立和執行 AWS Glue 或 Amazon Redshift 資料來源,您可以在選定的專案庫存中建立資產,並將其技術中繼資料從來源資料庫表格或資料倉儲作為庫存匯入 Amazon DataZone。

  • 您可以使用 API 從可用的系統資產類型 (AWS Glue、Amazon Redshift、Amazon S3 物件) 或從自訂資產類型建立資產。

    • 使用 Amazon DataZone API 在專案庫存中建立自訂資產類型。自訂資產類型可以包括機器學習模型、儀表板、內部部署資料表等。

    • 使用 Amazon DataZone API 從這些自訂資產類型建立資產。

  • 使用 Amazon 資 DataZone 料入口網站為 S3 物件手動建立資產。

規劃專案庫存資產-建立專案清查後,資料擁有者可以透過新增或更新業務名稱 (資產和結構描述)、說明 (資產和結構描述)、Read me、詞彙術語 (資產和架構) 和中繼資料表單,來規劃其庫存資產與所需的業務中繼資料。您可以透過資料入口網站或使用 Amazon DataZone API 執行此操作。對資產進行的每次編輯都會建立新的庫存版本。

將專案庫存資產發佈到 Amazon DataZone 目錄

使用 Amazon 對資料 DataZone 進行分類的下一步是讓網域使用者可以探索專案的庫存資產。您可以將庫存資產發佈到 Amazon DataZone 目錄來執行此操作。只有最新版本的庫存資產可以發佈至目錄,而且探索目錄中只有最新發佈的版本處於作用中狀態。如果庫存資產在發佈到 Amazon DataZone 目錄後進行更新,您必須再次明確發佈該資產,以便將最新版本放在探索目錄中。在目前版本的 Amazon 中 DataZone,您可以透過下列方式將專案庫存資產發佈到 Amazon DataZone 目錄:

  • 透過資料入口網站或使用 Amazon DataZone API,將您的專案庫存資產手動發佈到 Amazon DataZone 目錄。

  • 在建立或編輯資料來源時,啟用選用的將 AWS Glue 資產發佈到目錄,或將 Amazon Redshift 資產發佈到目錄設定,以便在排程或自動化資料來源執行期間使用。啟用此設定後,資料來源執行會將資產新增至專案的庫存,然後將庫存資產發佈到 Amazon DataZone 目錄。請注意,如果您直接發佈,這些資產可能沒有任何業務中繼資料,而且可直接找到所有網域使用者。您可以透過資料入口網站或使用 Amazon DataZone API 在資料來源上使用此設定。

什麼是 Amazon DataZone 訂閱和履行工作流程?

將您的資產發佈到 Amazon DataZone 目錄後,您的網域使用者可以探索這些資產、請求並取得這些資產的存取權,並繼續使用 Amazon DataZone 來管理、共用和分析這些資產。

使用者代表專案訂閱該資產,以要求存取資產。建立訂閱請求後,資產的擁有者會收到通知,並可以檢閱訂閱請求,並決定他們是要核准還是拒絕。如果訂閱請求獲得資料擁有者的核准,則訂閱專案會被授與該資產的存取權。

一旦訂閱請求獲得核准,Amazon 就會 DataZone 開始訂閱履行工作流程,透過在 AWS Lake Formation 或 Amazon Redshift 中建立必要的授權,自動將資產新增到專案內的所有適用環境。這可讓訂閱專案成員在其環境中使用其中一個查詢工具 (Amazon Athena 或 Amazon Redshift 查詢編輯器) 查詢資產。

Amazon 只 DataZone 能針對受管資產 (包括 AWS Glue 資料表和 Amazon Redshift 表格和檢視) 觸發此自動履行邏輯。對於所有其他資產類型 (非受管資產),Amazon DataZone 無法自動觸發履行,而是在 Amazon Eventbridge 中發佈事件,其中包含事件承載中的所有必要詳細資訊,以便您可以在 Amazon 以外建立必要的授權。 DataZoneAmazon DataZone 還提供了 updateSubscriptionStatus API,該 API 使您可以在 Amazon 以外完成訂閱後更新訂閱的狀態,以 DataZone 便 Amazon DataZone 可以通知項目成員他們可以開始使用該資產。

Amazon 的用戶角色 DataZone

以下是主要的 Amazon DataZone 用戶角色:

  • 擁有將 Amazon 設定 DataZone 為其組織分析平台的網域管理員。

    在 Amazon 的環境中 DataZone,網域管理員會 DataZone 在 AWS 帳戶中安裝 Amazon、建立 Amazon DataZone 網域,以及設定 AWS 帳戶關聯和身分供應商與 Amazon DataZone 網域的關聯。網域管理員也會使用其他 AWS 服務主控台 (例如 AWS 組織和 Service Catalog) 來設定 Amazon DataZone。

  • 身為 Amazon 主要使用者 DataZone (資產發佈者和訂閱者) 進行分析和機器學習任務的資料使用者。

    資料使用者包括產生和使用資料資產的資料分析工作者、資料科學家和系統使用者。在 Amazon 環境中 DataZone,資料使用者建立和加入專案和環境、使用預先設定的分析或機器學習工具訂閱和使用資料資產,以及將輸出資料資產發佈回 Amazon DataZone 網域目錄以與其他人共用。

  • 建立自訂基礎設施範本,並將 Amazon DataZone 與內部目錄或生產系統整合的系統開發人員。

    在 Amazon 的環境中 DataZone,系統開發人員將環境藍圖 (基礎設施範本) 或基礎架構即程式碼 CI/CD 管道建置為環境提供者、資料管道以跨環境推廣資料資產、目錄同步和訂閱授予履行配接器以與內部目錄整合,或在需要時在 Amazon DataZone API 與內部使用者界面或生產系統之間進行整合。

  • 擁有組織安全、隱私權和其他合規政策的定義和風險,並確保 Amazon DataZone 在其組織中的使用符合這些定義的資料控管主管。

Amazon DataZone 术语

網域

Amazon DataZone 網域是將資產、使用者及其專案連接在一起的組織實體。使用 Amazon DataZone 網域,您可以靈活地反映組織結構的資料和分析需求,無論是為您的企業建立單一 Amazon DataZone 網域,還是為不同業務單位或團隊建立多個 Datazone 網域,您都可以靈活地反映組織結構的資料和分析需求。

關聯帳戶

將您的 AWS 帳戶與 Amazon DataZone 網域建立關聯,可讓您將這些 AWS 帳戶的資料發佈到 Amazon DataZone 目錄,並建立 Amazon DataZone 專案,以便在多個 AWS 帳戶中處理您的資料。帳戶關聯請求只能在擁有 Amazon DataZone 網域的 AWS 帳戶中啟動。帳戶關聯要求只能由受邀 AWS 帳戶的管理使用者接受。一旦 AWS 帳戶與某個 Amazon DataZone 網域建立關聯,您就可以在此帳戶中將 AWS Glue 目錄和 Amazon Redshift 等資料來源註冊到此網域。關聯還可以使 AWS 帳戶創建 Amazon DataZone 項目和環境。

一個 AWS 帳戶 可以與一個或多個 Amazon DataZone 網域相關聯。

資料來源

在 Amazon 中 DataZone,您可以使用資料來源將資產 (資料) 的技術中繼資料從來源資料庫或資料倉儲匯入 Amazon DataZone。在目前版本的 Amazon 中 DataZone,您可以為 AWS Glue 和 Amazon Redshift 建立和執行資料來源。透過建立資料來源,您可以在 Amazon DataZone 和來源 (AWS Glue Data Catalog 或 Amazon Redshift 倉儲) 之間建立連線,以便讀取技術中繼資料,包括表名稱、欄名稱和資料類型。透過建立資料來源,您還可以啟動初始資料來源執行,在 Amazon 中建立新資產或更新現有資產 DataZone。建立資料來源時或成功建立資料來源後,您也可以選擇為資料來源執行指定排程。

資料來源執行

在 Amazon 中 DataZone,資料來源執行是 Amazon DataZone 執行的一項任務,以便在專案庫存中建立資產,也可以選擇將專案庫存資產發佈到 Amazon DataZone 目錄。可以自動執行資料來源 (在最初建立資料來源時啟動),也可以排程或手動執行。資料選取準則可讓您微調現有和 future 的資料集,以擷取到專案庫存或 Amazon DataZone 目錄中,以及這些庫存或目錄資產的中繼資料更新頻率。

訂閱目標

在 Amazon 中 DataZone,訂閱目標可讓您存取在專案中訂閱的資料。訂閱目標指定 Amazon 可用於與來源資料建立連線並建立必要授權的位置 (例如資料庫或結構描述) 和必要許 DataZone 可 (例如 IAM 角色),以便 Amazon DataZone 專案成員可以開始查詢他們已訂閱的資料。

訂閱請求

在 Amazon 中 DataZone,訂閱請求是 Amazon DataZone 專案必須遵循的程序,才能授予特定資產的存取權。您可以核准、拒絕、撤銷或授與訂閱要求。

資產

在 Amazon 中 DataZone,資產是顯示單一實體資料物件 (例如,資料表、儀表板、檔案) 或虛擬資料物件 (例如,檢視) 的實體。

資產類型設定

資產類型定義了資產在 Amazon DataZone 目錄中的表示方式。資產類型可定義特定資產類型的資料架構。建立資產後,系統會根據其資產類型 (依預設為最新版本) 定義的資產資料架構來驗證資產。發生資產更新時,Amazon 會 DataZone 建立新的資產版本,並讓 Amazon DataZone 使用者能夠在所有資產版本上操作。

商業詞彙

在 Amazon 中 DataZone,商業詞彙表是可能與資產相關聯的商業術語集合。商業詞彙表有助於確保整個組織在各種資料分析工作中使用相同的術語和定義。

您可以將商業詞彙表中的術語新增至資產和欄,以便在搜尋期間對這些屬性進行分類或加強識別。您可以在與資產關聯的中繼資料表單中,選取字彙作為欄位的值類型。選取特定字詞做為資產中繼資料表單欄位的值時,使用者可以搜尋商業詞彙字詞並尋找相關資產。

元數據表單類型

中繼資料表單類型是一種範本,用於定義資產建立為庫存或在 Amazon DataZone 網域中發佈時收集和儲存的中繼資料。中繼資料表單類型可以與資料資產產生關聯。中繼資料表單類型可協助網域管理員定義該網域所需的中繼資料表單,例如合規性資訊、法規資訊或分類。它可讓網域管理員自訂其資產的其他中繼資料。Amazon DataZone 具有系統元數據表單類 asset-common-details-form型,例如類 column-business-metadata-form型 glue-table-form-type glue-view-form-type,類型 redshift-table-form-type redshift-view-form-type,,,object-collection-form-type,s3- subscription-terms-form-type,和 suggestion-form-type。

元數據表單

在 Amazon 中 DataZone,中繼資料表單定義資產建立為庫存或在 Amazon DataZone 網域中發佈時收集和儲存的中繼資料。中繼資料表單定義是由網域管理員在目錄網域中建立的。中繼資料表單定義由一或多個欄位定義組成,支援布林值、日期、十進位、整數、字串和商業詞彙表欄位值資料類型。

網域管理員會將中繼資料表單新增至其網域,將中繼資料表單套用至其網域中的資產。然後,資產發佈者會在中繼資料表單中提供任何選擇性和必要欄位值。

專案

在 Amazon 中 DataZone,專案可讓一組使用者在各種商業使用案例上進行協作,這些使用案例涉及在專案清單中建立資產,進而讓所有專案成員都能探索這些資產,然後發佈、探索、訂閱和使用 Amazon 目錄中的資產。 DataZone 專案成員使用 Amazon DataZone 目錄中的資產,並使用一或多個分析工作流程產生新資產。專案成員可以是擁有者或貢獻者。項目所有者可以添加或刪除其他用戶作為擁有者或貢獻者,他們可以修改或刪除項目。對貢獻者的其他限制可以使用政策來定義。當使用者建立專案時,他們會成為該專案的第一個擁有者。

環境

環境是已設定資源的集合 (例如,Amazon S3 儲存貯體、資 AWS Glue 料庫或 Amazon Athena 工作群組),其中包含一組可在這些資源上操作的指定 IAM 主體 (具有指派的參與者許可)。每個環境也可能有授權存取資源並透過訂閱和履行存取資料的使用者主體。環境旨在將可操作的鏈接存儲到 AWS 服務和外部 IDE 和控制台中。專案成員可以透過在環境中設定的深層連結存取 Amazon Athena 主控台等服務。專案中的 SSO 使用者和 IAM 使用者可進一步設定為使用/存取特定環境。

環境設定檔

在 Amazon 中 DataZone,環境設定檔是您可以用來建立環境的範本。環境設定檔是使用藍圖建立的。

透過環境設定檔,網域管理員可以使用預先設定的參數來包裝藍圖,然後資料工作者可以透過選取現有的環境設定檔並指定新環境的名稱,快速建立任意數量的新環境。這可讓資料工作者有效管理其專案和環境,同時確保資料工作者滿足其網域管理員強制執行的資料控管原則。

藍圖

建立環境的藍圖定義了環境所屬專案的 AWS 工具和服務 (例如 Amazon Redshift) 成員在處理 Amazon DataZone 目錄中的資產時, AWS Glue 可以使用哪些工具和服務。

在目前版本的 Amazon DataZone 中,支援下列藍圖:

  • 資料湖藍圖

  • 資料倉儲藍圖

  • Amazon Sageemaker 藍圖

  • 自訂 AWS 服務藍圖

使用者概況

用戶配置文件代表 Amazon DataZone 用戶。Amazon 同時 DataZone 支援 IAM 角色和 SSO 身分識別,以便與 Amazon DataZone 管理主控台和資料入口網站進行互動,以達到不同用途。網域管理員使用 IAM 角色在 Amazon DataZone 管理主控台中執行與管理網域相關的初始工作,包括建立新的 Amazon DataZone 網域、設定中繼資料表單類型以及實作政策。資料工作者透過身分識別中心使用其 SSO 公司身分登入 Amazon DataZone 資料入口網站,並存取擁有會員資格的專案。

集團概況

群組設定檔代表 Amazon DataZone 使用者群組。您可以手動建立群組,或對應至企業客戶的 Active Directory 群組。在 Amazon DataZone,團體有兩個目的。首先,群組可以對應到組織圖中的使用者團隊,因此在有新員工加入或離開團隊時減少 Amazon DataZone 專案擁有者的管理工作。其次,企業管理員使用 Active Directory 群組來管理和更新使用者狀態,讓 Amazon DataZone 網域管理員可以使用這些群組成員資格來實作 Amazon DataZone 網域政策。

網域管理員

在 Amazon 中 DataZone,建立 Amazon DataZone 網域的 IAM 主體是該網域的預設網域管理員。Amazon 中的網域管理員 DataZone 執行網域的關鍵功能,包括建立網域、指派其他網域管理員、新增資料來源和訂閱目標、建立專案和環境,以及指派專案擁有者。

出版商

在 Amazon 中 DataZone,出版商將資產發佈到 Amazon DataZone 目錄中,並可編輯其發佈資產的中繼資料。如果授予此授權,發布者可以核准或拒絕對他們在 Amazon DataZone 目錄中發佈的資產的訂閱請求。

Subscriber

在 Amazon DataZone,訂戶是一個 Amazon DataZone 項目,希望查找,訪問和使用 Amazon DataZone 目錄中的資產。

AWS 帳戶 owner

在 Amazon 中 DataZone, AWS 帳戶 擁有者在其 AWS 帳戶 中建立角色、政策和許可,以 AWS 帳戶 便將這些角色、政策和許可與 Amazon DataZone 網域建立關聯。