本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。
技術評估
技術評估很重要,因為它可以為您提供公司目前技術能力的地圖。評估涵蓋資料控管、資料擷取、資料轉換、資料共用、機器學習 (ML) 平台、程序和自動化。
以下是您在技術評估期間可以依團隊提出的問題範例。您可以根據自己的上下文添加問題。
數據工程團隊
-
目前為您的團隊擷取資料所面臨的挑戰是什麼?
-
您的團隊是否需要任何無法擷取的外部或內部資料來源? 為什麼他們不可用?
-
您從哪些類型的資料來源擷取資料 (例如 MySQL 資料庫、Salesforce API、接收的檔案、網站導覽資料)?
-
從新資料來源擷取資料需要多長時間?
-
從新來源擷取資料的程序是否自動化?
-
對於開發團隊來說,從其應用程序發布交易數據以進行分析有多容易?
-
您是否有從資料來源完全負載或增量載入 (批次或微批次) 的工具?
-
您是否有用於從數據庫連續加載的更改數據捕獲(CDC)工具?
-
您有資料擷取的資料串流選項嗎?
-
如何針對批次和即時資料執行資料轉換?
-
您如何管理資料轉換工作流程的協調流程?
-
您最常執行哪些活動:資料探索與編目、資料擷取、資料轉換、協助業務分析師、協助資料科學家、資料控管、訓練團隊和使用者?
-
建立資料集時,如何為資料隱私分類? 您如何清潔它以使其對內部消費者有意義?
-
資料治理和資料管理是集中化還是分散式?
-
您如何強制執行資料控管? 您有自動化流程嗎?
-
管道每個階段的資料擁有者和管理員是誰:資料擷取、資料處理、資料共用和資料使用? 是否有用於確定所有者和管家的數據域概念?
-
在組織內使用存取控制共用資料集時,主要挑戰是什麼?
-
您是否使用基礎結構即程式碼 (IaC) 來部署和管理資料管線?
-
您有資料湖策略嗎?
-
您的資料湖是分散式還是集中在整個組織中?
-
-
您的資料目錄是如何組織的? 它是全公司還是每個地區?
-
您有資料湖畔的方法嗎?
-
您是否使用或計劃使用資料網格概念?
您可以補充這些問題AWS架構良好的架構資料分析鏡頭。
事務, 分析, 隊
-
您將如何描述可用於您工作的數據的以下特徵:
-
清潔
-
品質
-
分類
-
中繼資料
-
業務意義
-
-
您的團隊是否參與您網域中資料集的商業詞彙表定義?
-
在您需要的時候,沒有執行工作所需的資料會有什麼影響?
-
您是否有任何無法訪問數據或獲取數據需要太長時間的情況示例? 需要多長時間才能獲得所需的數據?
-
由於技術問題或處理時間,您使用的資料集比您所需要的更小的資料集多久一次?
-
您是否擁有包含所需規模和工具的沙箱環境?
-
你可以執行 A/B 測試來驗證假設嗎?
-
您是否缺少執行工作所需的任何工具?
-
哪些類型的工具?
-
為什麼他們不可用?
-
-
有沒有任何重要的活動,你沒有時間來執行?
-
哪些活動最消耗您的時間?
-
您的商務檢視畫面如何重新整理?
-
它們是否自動排程和管理?
-
-
在哪些情況下,您需要比獲得的數據更新的數據?
-
您如何分享分析? 您使用哪些工具和程序進行共用?
-
您是否經常建立新的資料產品並將其提供給其他團隊?
-
您與其他業務領域或整個公司共用資料產品的程序為何?
-
資料科學團隊 (決定模型部署)
-
您將如何描述可用於您工作的數據的以下特徵:
-
清潔
-
品質
-
分類
-
中繼資料
-
意義
-
-
您是否有任何用於訓練、測試和部署機器學習 (ML) 模型的自動化工具?
-
在建立和部署 ML 模型時,是否有機器大小選項來執行每個步驟?
-
ML 模型如何投入生產?
-
部署新模型的步驟是什麼? 他們有多自動化?
-
您是否擁有用於針對批次和即時資料訓練、測試和部署機器學習模型的元件?
-
您是否可以使用和處理足夠大的資料集來表示建立模型所需的資料?
-
您如何監控模型並採取行動重新訓練模型?
-
您如何衡量這些模型對您的業務的影響?
-
您可以執行 A/B 測試以驗證業務團隊的假設嗎?
如需其他問題,請參閱AWS架構良好的機器學習鏡頭。