Amazon 的數據質量 DataZone - Amazon DataZone

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

Amazon 的數據質量 DataZone

Amazon 中的資料品質指標可 DataZone 協助您了解不同的品質指標,例如資料來源的完整性、及時性和準確性。Amazon 與 AWS Glue 資料品質 DataZone整合,並提供 API 以整合來自第三方資料品質解決方案的資料品質指標。資料使用者可以查看其訂閱資產的資料品質指標隨時間變化的情形。若要編寫並執行資料品質規則,您可以使用您選擇的資料品質工具,例如 AWS Glue 資料品質。透過 Amazon 中的資料品質指標 DataZone,資料消費者可以視覺化資產和資料欄的資料品質分數,協助建立對決策所用資料的信任度。

先決條件和 IAM 角色變更

如果您使用 Amazon 的 AWS 受管 DataZone政策,則不需要額外的組態步驟,而且這些受管政策會自動更新以支援資料品質。如果您使用自己的政策來授予 Amazon DataZone 與支援的服務互通所需權限的角色,則必須更新附加到這些角色的政策,以支援讀取中的 AWS Glue 資料品質資訊,AWS 受管理的策略:AmazonDataZoneGlueManageAccessRolePolicy並支援AWS 受管理的策略:AmazonDataZoneDomainExecutionRolePolicy和中的時間序列 API。AWS 受管理的策略: AmazonDataZoneFullUserAccess

啟用 AWS Glue 資產的資料品質

Amazon 會從 AWS Glue DataZone 擷取資料品質指標,以便在某個時間點 (例如,在搜尋業務資料目錄期間) 提供內容。資料使用者可以查看其訂閱資產的資料品質指標隨時間變化的情形。資料生產者可依排程擷取 AWS Glue 資料品質分數。Amazon DataZone 商業資料型錄也可以透過資料品質 API 顯示第三方系統的資料品質指標。如需詳細資訊,請參閱資料目錄的 G AWS lue 資料品質和 AWS Glue 資料品質入門

您可以透過下列方式為 Amazon 資 DataZone 產啟用資料品質指標:

  • 使用資料入口網站或 Amazon DataZone API,在建立新的或編輯現有 AWS Glue 資料來源時,透過 Amazon DataZone 資料入口網站為 AWS Glue 資料來源啟用資料品質。

    如需透過入口網站為資料來源啟用資料品質的詳細資訊,請參閱建立並執行 Amazon DataZone 資料來源 AWS Glue Data Catalog管理現有 Amazon DataZone 資料來源

    注意

    您可以使用資料入口網站,僅為 AWS Glue 庫存資產啟用資料品質。在此版本的亞馬遜中,不支援透過資料入口網站為 Amazon Redshift 或自訂類型資產 DataZone 啟用資料品質。

    您也可以使用 API 來啟用新資料來源或現有資料來源的資料品質。您可以通過調用CreateDataSourceUpdateDataSource並將autoImportDataQualityResult參數設置為「真」來執行此操作。

    啟用資料品質後,您可以依需求或按排程執行資料來源。每次執行每項資產最多可產生 100 個指標。使用資料來源獲得資料品質時,無需手動建立表單或新增指標。資產發佈時,對資料品質表單所做的更新 (每個歷史記錄規則最多 30 個資料點) 會反映在消費者的清單中。隨後,資產的每個新增量度都會自動新增至清單。消費者無需重新發佈資產即可獲得最新分數。

啟用自訂資產類型的資料品質

您可以使用 Amazon DataZone API 為任何自訂類型資產啟用資料品質。如需詳細資訊,請參閱下列內容:

以下步驟提供使用 API 或 CLI 為 Amazon 中資產匯入第三方指標的範例 DataZone:

  1. 調用 PostTimeSeriesDataPoints API,如下所示:

    aws datazone post-time-series-data-points \ --cli-input-json file://createTimeSeriesPayload.json \

    具有以下有效載荷:

    { "domainIdentifier": "dzd_bqqlk3nz21zp2f", "entityIdentifier": "4nwl5ew0dsu27b", "entityType": "ASSET", "forms": [ { "content": "{\n \"evaluationsCount\" : 11,\n \"evaluations\" : [ {\n \"description\" : \"IsComplete \\\"Id\\\"\",\n \"details\" : {\n \"STATISTIC_NAME\" : \"Completeness\",\n \"COLUMN_NAME\" : \"Id\"\n },\n \"status\" : \"PASS\"\n }, {\n \"description\" : \"Uniqueness \\\"Id\\\" > 0.95\",\n \"details\" : {\n \"STATISTIC_NAME\" : \"Uniqueness\",\n \"COLUMN_NAME\" : \"Id\"\n },\n \"status\" : \"PASS\"\n }, {\n \"description\" : \"ColumnLength \\\"Id\\\" = 18\",\n \"details\" : {\n \"STATISTIC_NAME\" : \"MinimumLength,MaximumLength\",\n \"COLUMN_NAME\" : \"Id,Id\"\n },\n \"status\" : \"PASS\"\n }, {\n \"description\" : \"IsComplete \\\"IsDeleted\\\"\",\n \"details\" : {\n \"STATISTIC_NAME\" : \"Completeness\",\n \"COLUMN_NAME\" : \"IsDeleted\"\n },\n \"status\" : \"PASS\"\n }, {\n \"description\" : \"Completeness \\\"Type\\\" >= 0.59\",\n \"details\" : {\n \"STATISTIC_NAME\" : \"Completeness\",\n \"COLUMN_NAME\" : \"Type\"\n },\n \"status\" : \"PASS\"\n }, {\n \"description\" : \"ColumnValues \\\"Type\\\" in [\\\"Customer - Direct\\\",\\\"Customer - Channel\\\"] with threshold >= 0.8\",\n \"details\" : {\n \"STATISTIC_NAME\" : \"\",\n \"COLUMN_NAME\" : \"\"\n },\n \"status\" : \"PASS\"\n }, {\n \"description\" : \"ColumnLength \\\"Type\\\" <= 18\",\n \"details\" : {\n \"STATISTIC_NAME\" : \"MaximumLength\",\n \"COLUMN_NAME\" : \"Type\"\n },\n \"status\" : \"PASS\"\n }, {\n \"description\" : \"ColumnLength \\\"ParentId\\\" <= 18\",\n \"details\" : {\n \"STATISTIC_NAME\" : \"MaximumLength\",\n \"COLUMN_NAME\" : \"ParentId\"\n },\n \"status\" : \"PASS\"\n }, {\n \"description\" : \"Completeness \\\"AnnualRevenue\\\" >= 0.28\",\n \"details\" : {\n \"STATISTIC_NAME\" : \"Completeness\",\n \"COLUMN_NAME\" : \"AnnualRevenue\"\n },\n \"status\" : \"PASS\"\n }, {\n \"description\" : \"StandardDeviation \\\"AnnualRevenue\\\" between 1658483123.39 and 1833060294.28\",\n \"details\" : {\n \"STATISTIC_NAME\" : \"StandardDeviation\",\n \"COLUMN_NAME\" : \"AnnualRevenue\"\n },\n \"status\" : \"PASS\"\n }, {\n \"description\" : \"ColumnValues \\\"AnnualRevenue\\\" between 29999999 and 5600000001\",\n \"details\" : {\n \"STATISTIC_NAME\" : \"Minimum,Maximum\",\n \"COLUMN_NAME\" : \"AnnualRevenue,AnnualRevenue\"\n },\n \"status\" : \"PASS\"\n } ],\n \"passingPercentage\" : 1.0\n}", "formName": "GREAT_EXPECTATION_NEW", "typeIdentifier": "amazon.datazone.DataQualityResultFormType", "timestamp": 1608969556 } ] }
  2. 調用 DeleteTimeSeriesDataPoints API,如下所示:

    aws datazone delete-time-series-data-points\ --domain-identifier dzd_bqqlk3nz21zp2f \ --entity-identifier dzd_bqqlk3nz21zp2f \ --entity-type ASSET \ --form-name rulesET1 \