技术评估 - AWS 规范性指导

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

技术评估

技术评估很重要,因为它可以为您提供公司当前现有技术能力的地图。评估涵盖数据治理、数据摄取、数据转换、数据共享、机器学习 (ML) 平台、流程和自动化。 

以下是您在技术评估期间可以按团队提出的问题示例。您可以根据自己的上下文添加问题。

数据工程团队

  • 当前您的团队在采集数据方面面临哪些挑战? 

  • 您的团队需要哪些外部或内部数据源不可提取? 为什么它们不可用?

  • 你从哪些类型的数据源提取数据(例如,MySQL 数据库、Salesforce API、收到的文件、网站导航数据)?

  • 从新数据源提取数据需要多长时间?

  • 从新来源获取数据的过程是否自动化?

  • 开发团队从其应用程序发布交易数据进行分析有多容易?

  • 您是否有用于从数据源进行满负载或增量加载(批量或微批量)的工具?

  • 您是否有用于从数据库持续加载的变更数据捕获 (CDC) 工具?

  • 您是否有用于数据摄取的数据流选项?

  • 如何对批量和实时数据进行数据转换?

  • 您如何管理数据转换工作流程的编排?

  • 您最常执行哪些活动:数据发现和编目、数据摄取、数据转换、帮助业务分析师、帮助数据科学家、数据治理、培训团队和用户?

  • 创建数据集时,如何对其进行数据隐私分类? 如何对其进行清洁,使其对内部消费者有意义?

  • 数据治理和数据管理是集中式还是分散式?

  • 您如何实施数据治理? 你有自动化流程吗?

  • 谁是管道每个阶段的数据所有者和管理者:数据摄取、数据处理、数据共享和数据使用? 是否有用于确定所有者和监管者的数据域概念?

  • 通过访问控制在组织内共享数据集的主要挑战是什么?

  • 您是否使用基础设施即代码 (IaC) 来部署和管理数据管道?

  • 你有数据湖战略吗? 

    • 您的数据湖在整个组织中是分布式还是集中式? 

  • 您的数据目录是如何组织的? 是全公司范围还是按区域划分?

  • 你有数据湖室方法吗?

  • 您是否使用或计划使用数据网格概念?

你可以用这个来补充这些问题AWS架构完善的框架数据分析镜头

业务分析小组

  • 你将如何描述可用于你的工作的数据的以下特征:

    • 清洁度

    • Quality

    • 分类

    • 元数据

    • 商业意义

  • 您的团队是否参与了您所在领域数据集的业务词汇表定义?

  • 在需要时没有完成工作所需的数据会产生什么影响?

  • 你有没有例子说明你无法访问数据或者获取数据需要太长时间? 获取所需数据需要多长时间?

  • 由于技术问题或处理时间,您使用的数据集小于所需数据的频率有多高?

  • 您是否有一个具有所需规模和工具的沙盒环境?

  • 你能进行 A/B 测试来验证假设吗?

  • 你缺少完成工作所需的任何工具吗?

    • 哪些类型的工具?

    • 为什么它们不可用?

  • 有没有什么重要的活动是你没有时间进行的?

  • 哪些活动最消耗您的时间?

  • 您的业务观点是如何刷新的?

    • 它们是自动安排和管理的吗?

  • 在哪些情况下,你需要比你获得的数据更新的数据?

  • 你如何分享分析? 您使用哪些工具和流程进行共享?

  • 您是否经常创建新的数据产品并将其提供给其他团队?

    • 您与其他业务领域或整个公司共享数据产品的流程是什么?

数据科学团队(确定模型部署)

  • 你将如何描述可用于你的工作的数据的以下特征:

    • 清洁度

    • Quality

    • 分类

    • 元数据

    • 意义

  • 你有用于训练、测试和部署机器学习 (ML) 模型的自动化工具吗?

  • 您是否有用于执行 ML 模型创建和部署 ML 模型的每个步骤的计算机大小选项?

  • 机器学习模型是如何投入生产的?

  • 部署新模型的步骤是什么? 它们的自动化程度如何?

  • 您是否有用于训练、测试和部署批量和实时数据的机器学习模型的组件? 

  • 您能否使用和处理足够大的数据集来表示创建模型所需的数据?

  • 如何监控模型并采取措施对其进行再训练?

  • 您如何衡量这些模型对业务的影响?

  • 您能否进行 A/B 测试来验证业务团队的假设?

有关其他问题,请参见AWS架构完善的框架机器学习镜头