运营模式 - SageMaker 工作室管理最佳实践

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

运营模式

运营模式是一种融合了人员、流程和技术的框架,有助于组织以可扩展、一致、高效的方式实现业务价值。机器学习运营模式为组织内的各团队提供了标准的产品开发流程。根据规模、复杂性和业务驱动因素,有三种实施运营模式的模型:

  • 集中式数据科学团队 — 在此模型中,所有数据科学活动都集中发生在单个团队或组织中。这类似于卓越中心 (COE) 模式,即所有业务部门加入该团队,共同完成数据科学项目。

  • 分布式数据科学团队 — 在此模型中,数据科学活动分布在不同的业务职能或部门,或者基于不同的产品线。

  • 联合数据科学团队 — 在此模型中,集中式团队负责管理代码存储库、持续集成和持续交付 (CI/CD) 管道等共享服务功能,而分布式团队负责管理各业务部门或产品级功能。这类似于星型拓扑连接模型,即每个业务部门都有专门的数据科学团队,但这些团队会与集中式团队协调活动。

请先考虑适用于组织环境的运营模式和 AWS 最佳实践,再决定启动适用于生产用例的首个 Studio 域。有关更多信息,请参阅使用多个账户组织 AWS 环境

下一节将指导如何针对各种运营模式来组织账户结构。

本节简要介绍了一种运营模式账户结构,以便您根据组织的运营要求初步应用并进行修改。无论您选择哪种运营模式,亚马逊都建议您实施以下常见的最佳实践:

  • 使用 AWS Control Tower 设置、管理并监管账户。

  • 使用身份提供者 (IdP) 和设有委派管理员 Securitiy Tooling 账户AWS IAM Identity Center,集中管理您的身份,并确保安全访问工作负载。

  • 使用跨开发、测试和生产工作负载的账户级隔离,运行机器学习工作负载。

  • 将机器学习工作负载日志流式传输到日志存档账户,然后在可观测性账户中筛选并应用日志分析。

  • 运行集中式监管账户,用于预置、控制并审核数据访问权限。

  • 根据组织和工作负载的要求,为每个账户嵌入具有适当预防性和检测性防护机制的安全和治理服务 (SGS),确保其安全性和合规性。

集中式模型账户结构

在此模型中,机器学习平台团队负责提供:

  • 共享服务工具账户,可满足数据科学团队的所有机器学习操作 (MLOps) 要求。

  • 跨数据科学团队共享账户,可开发、测试并生产机器学习工作负载。

  • 监管策略,可确保独立运行各数据科学团队的工作负载。

  • 常见的最佳实践。

图中描述了集中式运营模式账户结构。

集中式运营模式账户结构

分布式模型账户结构

在此模型中,每个机器学习团队均独自负责预置、管理并治理机器学习账户和资源。亚马逊建议机器学习团队使用支持可观测性和数据治理的集中式模型,以简化数据治理和审计管理流程。

图中描述了分布式运营模式账户结构。

分布式运营模式账户结构

联合模型账户结构

此模型与集中式模型类似,关键区别在于,每个数据科学/机器学习团队都有一组独有的开发/测试/生产工作负载账户,能够有效地对机器学习资源进行物理隔离,还能让各团队在不影响其他团队的情况下独立扩展。

文档描述了联合运营模式账户结构。

联合运营模式账户结构

机器学习平台多租户架构

多租户是一种软件架构,其中的单个软件实例可以为多个不同的用户组提供服务。租户是一组用户,共享对软件实例的特定访问权限。例如,您在开发多个机器学习产品时,可以将具有相似访问权限要求的产品团队都视为租户或团队。

虽然单个 SageMaker Studio 实例(如 SageMaker 域)中也许能部署多个团队,但在多个团队代入单个 SageMaker Studio 域时,请权衡这些优势与爆炸半径、成本归属和账户级别限制等利弊。以下章节详细说明了这些利弊和最佳实践。

如需彻底隔离资源,可以考虑为不同账户中的每个租户都实施 SageMaker Studio 域。根据隔离要求,可实施多条业务线 (LOB),作为单个账户和区域中的多个域。使用共享空间,在同一团队/业务线中的成员之间开展近实时的协作。您仍能使用 Identity Access Management (IAM) 策略和权限,确保实现多域资源隔离。

域中创建的 SageMaker 资源会自动使用域 Amazon 资源名称 (ARN) 和用户配置文件或空间 ARN 进行标记,以便于资源隔离。有关示例策略,请参阅域资源隔离文档。此文档介绍了关于多账户或多域策略使用时的详细信息和功能比较信息,并说明了为 GitHub 存储库上的现有域回填标记的脚本示例。

最后可用 AWS Service Catalog 将 SageMaker Studio 资源的自助部署到多个账户中。有关更多信息,请参阅在多个 AWS 账户 和 AWS 区域 中管理 AWS Service Catalog 产品