技術評估 - AWS 規範指南

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

技術評估

技術評估很重要,因為它可以為您提供公司目前技術能力的地圖。評估涵蓋資料控管、資料擷取、資料轉換、資料共用、機器學習 (ML) 平台、程序和自動化。 

以下是您在技術評估期間可以依團隊提出的問題範例。您可以根據自己的上下文添加問題。

數據工程團隊

  • 目前為您的團隊擷取資料所面臨的挑戰是什麼? 

  • 您的團隊是否需要任何無法擷取的外部或內部資料來源? 為什麼他們不可用?

  • 您從哪些類型的資料來源擷取資料 (例如 MySQL 資料庫、Salesforce API、接收的檔案、網站導覽資料)?

  • 從新資料來源擷取資料需要多長時間?

  • 從新來源擷取資料的程序是否自動化?

  • 對於開發團隊來說,從其應用程序發布交易數據以進行分析有多容易?

  • 您是否有從資料來源完全負載或增量載入 (批次或微批次) 的工具?

  • 您是否有用於從數據庫連續加載的更改數據捕獲(CDC)工具?

  • 您有資料擷取的資料串流選項嗎?

  • 如何針對批次和即時資料執行資料轉換?

  • 您如何管理資料轉換工作流程的協調流程?

  • 您最常執行哪些活動:資料探索與編目、資料擷取、資料轉換、協助業務分析師、協助資料科學家、資料控管、訓練團隊和使用者?

  • 建立資料集時,如何為資料隱私分類? 您如何清潔它以使其對內部消費者有意義?

  • 資料治理和資料管理是集中化還是分散式?

  • 您如何強制執行資料控管? 您有自動化流程嗎?

  • 管道每個階段的資料擁有者和管理員是誰:資料擷取、資料處理、資料共用和資料使用? 是否有用於確定所有者和管家的數據域概念?

  • 在組織內使用存取控制共用資料集時,主要挑戰是什麼?

  • 您是否使用基礎結構即程式碼 (IaC) 來部署和管理資料管線?

  • 您有資料湖策略嗎? 

    • 您的資料湖是分散式還是集中在整個組織中? 

  • 您的資料目錄是如何組織的? 它是全公司還是每個地區?

  • 您有資料湖畔的方法嗎?

  • 您是否使用或計劃使用資料網格概念?

您可以補充這些問題AWS架構良好的架構資料分析鏡頭

事務, 分析, 隊

  • 您將如何描述可用於您工作的數據的以下特徵:

    • 清潔

    • 品質

    • 分類

    • 中繼資料

    • 業務意義

  • 您的團隊是否參與您網域中資料集的商業詞彙表定義?

  • 在您需要的時候,沒有執行工作所需的資料會有什麼影響?

  • 您是否有任何無法訪問數據或獲取數據需要太長時間的情況示例? 需要多長時間才能獲得所需的數據?

  • 由於技術問題或處理時間,您使用的資料集比您所需要的更小的資料集多久一次?

  • 您是否擁有包含所需規模和工具的沙箱環境?

  • 你可以執行 A/B 測試來驗證假設嗎?

  • 您是否缺少執行工作所需的任何工具?

    • 哪些類型的工具?

    • 為什麼他們不可用?

  • 有沒有任何重要的活動,你沒有時間來執行?

  • 哪些活動最消耗您的時間?

  • 您的商務檢視畫面如何重新整理?

    • 它們是否自動排程和管理?

  • 在哪些情況下,您需要比獲得的數據更新的數據?

  • 您如何分享分析? 您使用哪些工具和程序進行共用?

  • 您是否經常建立新的資料產品並將其提供給其他團隊?

    • 您與其他業務領域或整個公司共用資料產品的程序為何?

資料科學團隊 (決定模型部署)

  • 您將如何描述可用於您工作的數據的以下特徵:

    • 清潔

    • 品質

    • 分類

    • 中繼資料

    • 意義

  • 您是否有任何用於訓練、測試和部署機器學習 (ML) 模型的自動化工具?

  • 在建立和部署 ML 模型時,是否有機器大小選項來執行每個步驟?

  • ML 模型如何投入生產?

  • 部署新模型的步驟是什麼? 他們有多自動化?

  • 您是否擁有用於針對批次和即時資料訓練、測試和部署機器學習模型的元件? 

  • 您是否可以使用和處理足夠大的資料集來表示建立模型所需的資料?

  • 您如何監控模型並採取行動重新訓練模型?

  • 您如何衡量這些模型對您的業務的影響?

  • 您可以執行 A/B 測試以驗證業務團隊的假設嗎?

如需其他問題,請參閱AWS架構良好的機器學習鏡頭