本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。
技术评估
技术评估很重要,因为它可以为您提供公司当前现有技术能力的地图。评估涵盖数据治理、数据摄取、数据转换、数据共享、机器学习 (ML) 平台、流程和自动化。
以下是您在技术评估期间可以按团队提出的问题示例。您可以根据自己的上下文添加问题。
数据工程团队
-
当前您的团队在采集数据方面面临哪些挑战?
-
您的团队需要哪些外部或内部数据源不可提取? 为什么它们不可用?
-
你从哪些类型的数据源提取数据(例如,MySQL 数据库、Salesforce API、收到的文件、网站导航数据)?
-
从新数据源提取数据需要多长时间?
-
从新来源获取数据的过程是否自动化?
-
开发团队从其应用程序发布交易数据进行分析有多容易?
-
您是否有用于从数据源进行满负载或增量加载(批量或微批量)的工具?
-
您是否有用于从数据库持续加载的变更数据捕获 (CDC) 工具?
-
您是否有用于数据摄取的数据流选项?
-
如何对批量和实时数据进行数据转换?
-
您如何管理数据转换工作流程的编排?
-
您最常执行哪些活动:数据发现和编目、数据摄取、数据转换、帮助业务分析师、帮助数据科学家、数据治理、培训团队和用户?
-
创建数据集时,如何对其进行数据隐私分类? 如何对其进行清洁,使其对内部消费者有意义?
-
数据治理和数据管理是集中式还是分散式?
-
您如何实施数据治理? 你有自动化流程吗?
-
谁是管道每个阶段的数据所有者和管理者:数据摄取、数据处理、数据共享和数据使用? 是否有用于确定所有者和监管者的数据域概念?
-
通过访问控制在组织内共享数据集的主要挑战是什么?
-
您是否使用基础设施即代码 (IaC) 来部署和管理数据管道?
-
你有数据湖战略吗?
-
您的数据湖在整个组织中是分布式还是集中式?
-
-
您的数据目录是如何组织的? 是全公司范围还是按区域划分?
-
你有数据湖室方法吗?
-
您是否使用或计划使用数据网格概念?
你可以用这个来补充这些问题AWS架构完善的框架数据分析镜头。
业务分析小组
-
你将如何描述可用于你的工作的数据的以下特征:
-
清洁度
-
Quality
-
分类
-
元数据
-
商业意义
-
-
您的团队是否参与了您所在领域数据集的业务词汇表定义?
-
在需要时没有完成工作所需的数据会产生什么影响?
-
你有没有例子说明你无法访问数据或者获取数据需要太长时间? 获取所需数据需要多长时间?
-
由于技术问题或处理时间,您使用的数据集小于所需数据的频率有多高?
-
您是否有一个具有所需规模和工具的沙盒环境?
-
你能进行 A/B 测试来验证假设吗?
-
你缺少完成工作所需的任何工具吗?
-
哪些类型的工具?
-
为什么它们不可用?
-
-
有没有什么重要的活动是你没有时间进行的?
-
哪些活动最消耗您的时间?
-
您的业务观点是如何刷新的?
-
它们是自动安排和管理的吗?
-
-
在哪些情况下,你需要比你获得的数据更新的数据?
-
你如何分享分析? 您使用哪些工具和流程进行共享?
-
您是否经常创建新的数据产品并将其提供给其他团队?
-
您与其他业务领域或整个公司共享数据产品的流程是什么?
-
数据科学团队(确定模型部署)
-
你将如何描述可用于你的工作的数据的以下特征:
-
清洁度
-
Quality
-
分类
-
元数据
-
意义
-
-
你有用于训练、测试和部署机器学习 (ML) 模型的自动化工具吗?
-
您是否有用于执行 ML 模型创建和部署 ML 模型的每个步骤的计算机大小选项?
-
机器学习模型是如何投入生产的?
-
部署新模型的步骤是什么? 它们的自动化程度如何?
-
您是否有用于训练、测试和部署批量和实时数据的机器学习模型的组件?
-
您能否使用和处理足够大的数据集来表示创建模型所需的数据?
-
如何监控模型并采取措施对其进行再训练?
-
您如何衡量这些模型对业务的影响?
-
您能否进行 A/B 测试来验证业务团队的假设?
有关其他问题,请参见AWS架构完善的框架机器学习镜头。