解決方案概觀 -

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

解決方案概觀

可擴展的 ML 框架

在數百萬客戶遍布多個業務線的企業中,ML 工作流程需要整合獨立團隊所擁有和管理的資料,使用不同的工具來釋放商業價值。銀行致力於保護其客戶的資料。同樣,用於 ML 模型開發的基礎設施也受到高安全標準的約束。這種額外的安全性增加了進一步的複雜性,並影響新機器學習模型的價值實現時間。在可擴展的 ML 架構中,可以使用現代化的標準化工具集,減少結合不同工具所需的工作量,並簡化新機器學習模型上線流程。

傳統上,金融服務業中資料科學活動的管理和支援是由一個中央平台團隊所控制,該團隊會為整個組織的資料團隊收集需求、佈建資源並維護基礎設施。若要在整個組織的聯合團隊中快速擴展 ML 的使用,您可以使用可擴展的 ML 框架,為新模型和管道的開發人員提供自助服務功能。這可讓這些開發人員部署現代化、預先核准、標準化且安全的基礎設施。最終,這些自助服務功能會減少組織對集中式平台團隊的依賴,並加快 ML 模型開發實現價值的時間。

可擴展的 ML 框架能夠讓資料消費者 (例如資料科學家或機器學習工程師) 釋放商業價值,方法是讓他們擁有執行下列操作的能力:

  • 瀏覽並探索模型培訓所需的預先核准資料

  • 快速且輕鬆地存取預先核准的資料

  • 使用已預先核准的資料來證明模型可行性

  • 將經過驗證的模型發佈到生產中供他人使用

下圖突出顯示框架的端對端流程,以及適用於 ML 使用案例的簡化上線路徑。

AWS Service Catalog shared account connecting to development, test, and production accounts.

在更廣泛的環境中,資料取用者會使用名為 data.all 的無伺服器加速器跨多個資料湖獲取資料,然後使用資料來訓練其模型,如下圖所示。

Data flow diagram showing MLOps and other applications interacting with data producers and consumers.

在較低等級,可擴展的 ML 框架包含以下內容:

  • 自助式基礎設施部署 – 減少對集中化團隊的依賴。

  • 中央 Python 套件管理系統 – 使預先批准的 Python 套件可用於模型開發。

  • 用於模型開發和推廣的 CI/CD 管道 – 將持續整合和持續 (CI/CD) 管道作為基礎設施即程式碼 (IaC) 範本的一部分,以減少上線時間。

  • 模型測試能力 – 利用單元測試、模型測試、整合測試和端到端測試功能,這些功能可自動用於新模型。

  • 模型解耦和協同運作 – 使用 Amazon SageMaker AI Pipelines,根據運算資源需求和不同步驟的協同運作,解耦模型步驟,以避免不必要的運算並讓您的部署更強大。

  • 程式碼標準化 – 使用 CI/CD 管道整合來驗證 Python Enhancement Proposal (PEP 8) 標準,從而提高程式碼品質。

  • 快速啟動一般 ML 範本 – 取得 Service Catalog 範本,透過使用 SageMaker AI 專案進行部署,只要按一下按鈕,即可執行個體化您的 ML 建模環境 (開發、生產前和生產) 和相關聯的管道。

  • 資料和模型品質監控 – 使用 Amazon SageMaker AI Model Monitor 自動監控資料和模型品質的偏離,確保您的模型符合操作要求,並在風險容忍度層級內執行。

  • 偏差監控 – 透過自動檢查資料不平衡,以及世界上的變化是否讓您的模型產生偏差,讓模型擁有者能夠做出公正且公平的決策。

中繼資料的中央樞紐

Data.all 是一種無伺服器加速器,可以與現有的 AWS 資料湖整合,將中繼資料收集到中央樞紐中。Data.all 中簡單易用的使用者介面可顯示與來自多個現有資料湖的資料集相關聯的中繼資料。這可讓非技術和技術使用者搜尋、瀏覽並請求存取可在其機器學習實驗室中使用的寶貴資料。Data.all 使用 AWS Lake Formation AWS Lambda、Amazon Elastic Container Service (Amazon ECS)、Amazon OpenSearch Service AWS Fargate和 AWS Glue。

SageMaker 驗證

為了證明 SageMaker AI 在各種資料處理和 ML 架構中的功能,實作這些功能的團隊會與銀行領導團隊一起選擇與銀行客戶不同部門不同複雜性的使用案例。使用案例資料已混淆,並在使用案例開發帳戶中的本機 Amazon Simple Storage Service (Amazon S3) 資料儲存貯體中提供功能證明階段。

當模型從原始訓練環境遷移到 SageMaker AI 架構完成時,您的雲端託管資料湖可讓生產模型讀取資料。然後,生產模型產生的預測會寫回資料湖。

遷移候選使用案例之後,可擴展的 ML 框架會採用目標指標的初始基準。您可以將該基準與先前的內部部署或其他雲端提供者計時進行比較,作為可擴展 ML 框架實現的時間改善證據。