在 SageMaker AI 中选择正确的数据准备工具的建议

机器学习中的数据准备是指收集、预处理和组织原始数据，使其适合分析和建模的过程。这一步骤可确保数据格式适合机器学习算法有效学习。数据准备任务可能包括处理缺失值、去除异常值、缩放功能、对分类变量进行编码、评测潜在偏差并采取措施减少偏差、将数据拆分为训练集和测试集、标记以及其他必要的转换，以优化数据的质量和可用性，从而完成后续的机器学习任务。

选择功能

使用 Amazon A SageMaker I 准备数据有三个主要用例。选择符合您需求的使用场景，然后参考相应的推荐功能。

使用案例

以下是为机器学习进行数据准备时的主要使用场景。

用例 1：对于那些喜欢可视化界面的用户， SageMaker AI 提供了通过 point-and-click环境探索、准备和设计模型训练功能的方法。
用例 2：对于熟悉编程、希望提高数据准备灵活性和控制力的用户， SageMaker AI 将工具集成到其编码环境中，用于探索、转换和功能工程。
用例 3：对于专注于可扩展数据准备的用户， SageMaker AI 提供了无服务器功能，可利用 Hadoop/Spark 生态系统对大数据进行分布式处理。

推荐的功能

下表概述了与机器学习的每个数据准备用例相关的 SageMaker AI 功能的关键注意事项和权衡取舍。首先，请确定符合您要求的用例，然后导航到其推荐的 SageMaker AI 功能。

描述符	应用场景 1	应用场景 2	使用案例 3
SageMaker 人工智能功能	亚马逊 Canva@@ s 中的 Data Wrangler SageMaker	在 Studio 中使用 SQL 准备数据	Studio 中的使用 EMR Serverless 准备数据应用程序
描述	SageMaker Canvas 是一个可视化的低代码环境，用于在 SageMaker AI 中构建、训练和部署机器学习模型。其集成的 Data Wrangler 工具允许用户通过 point-and-click交互来组合、转换和清理数据集。	Studio 中的 SQL 扩展允许用户连接亚马逊 Redshift、Snowflake、Athena 和 Amazon S3，以创作临时 SQL 查询，并在笔记本中预览结果。 JupyterLab可以使用 Python 和 Pandas 对这些查询的输出进行处理，以便进行额外的处理、可视化，并将其转换为机器学习模型开发所需的格式。	EMR Serverless 和 Amazon SageMaker Studio 之间的集成提供了一个可扩展的无服务器环境，用于使用 Apache Spark 和 Apache Hive 等开源框架为机器学习准备大规模数据。用户可以直接从其 Studio 笔记本访问 EMR Serverless 应用程序和数据，以大规模执行数据准备任务。
优化	使用可视化界面，您可以：创建数据准备管道进行数据分析使用内置变换对数据进行变换使用生成式 AI 驱动的自然语言指令进行数据转换针对表格数据任务进行了优化，如处理缺失值、编码分类变量和应用数据转换。	适用于数据驻留在 Amazon Redshift、Snowflake、Athena 或 Amazon S3 中，并希望将探索式 SQL 和 Python 结合起来进行数据分析和准备，而无需学习 Spark 的用户。	适用于更喜欢无服务器体验的用户，这些体验包括自动资源配置和终止来扩展围绕 Apache Spark 的短时运行或间歇性交互式工作负载，同时利用 SageMaker AI 的机器学习功能。
注意事项	如果您的团队已经掌握了 Python、Spark 或其他语言的专业知识，那么它可能不是最佳选择。如果您需要完全灵活地定制转换以添加复杂的业务逻辑，或者需要完全控制数据处理环境，那么它可能不是最合适的选择。	此功能仅适用于驻留在 Amazon Redshift、Snowflake、Athena 或 Amazon S3 中的结构化数据。如果您的查询结果大小超过您的 SageMaker AI 实例内存，则以下笔记本可以指导您开始使用 Athena，准备数据以供人工智能算法摄取。 SageMaker	对于不熟悉 EMR Serverless 应用程序和基于 Spark 工具的用户来说，学习曲线可能具有挑战性。该功能更适合交互式数据准备任务，对于涉及海量数据、与其他服务的广泛集成、自定义应用程序或 Apache Spark 以外的各种分布式数据处理框架的大规模、长期运行或复杂数据处理要求，其效率可能不及 Amazon EMR 集群。虽然无服务器计算对于短期任务来说具有成本效益，但必须认真监控和管理成本，尤其是对于长期运行或资源密集型工作负载。
建议的环境	开始使用 Can SageMaker vas	启动 Studio	启动 Studio

其他选项

SageMaker AI 提供了以下其他选项来准备用于机器学习模型的数据。

使用 Amazon EMR 准备数据：对于长时间运行、计算密集型的大规模数据处理任务，可以考虑使用 Studio 的 Amazon EMR 集群。 SageMaker Amazon EMR 集群旨在处理大规模并行化，可扩展至数百或数千个节点，因此非常适合需要 Apache Spark、Hadoop、Hive 和 Presto 等框架的大数据工作负载。Amazon EMR 与 SageMaker Studio 的集成使您可以利用 Amazon EMR 的可扩展性和性能，同时在 Studio 环境中集中和管理完整的机器学习实验、模型训练和部署。 SageMaker
使用 glue 交互式会话准备数据：您可以使用交 AWS Glue 互式会话中基于 Apache Spark 的无服务器引擎在 Studio 中聚合、转换和准备来自多个来源的数据。 SageMaker
使用 Amazon SageMaker Cl@@ arify 处理任务识别训练数据中的偏见： SageMaker Clarify 会分析您的数据并检测多个方面的潜在偏差。例如，您可以使用 Studio 中的 Clarify API 来检测您的训练数据是否包含不平衡的表示或群体（如性别、种族或年龄）间的标签偏差。Clarify 可以帮助您在训练模型前识别这些偏差，避免将偏差传播到模型的预测中。
创建、存储和共享功能：Amazon F SageMaker eature Store 优化了机器学习精选功能的发现和重复使用。它提供了一个集中式存储库，用于存储可搜索和检索的功能数据，以便进行模型训练。以标准化格式存储功能可在多个 ML 项目中重复使用。特征存放区管理功能的整个生命周期，包括任务流水线追踪功能、统计和审计跟踪记录，以实现可扩展和可管理的机器学习特征工程。
使用标记数据 human-in-the-loop：您可以使用 G SageMaker round Truth 来管理训练数据集的数据标签工作流程。
使用 SageMaker Processing API：在执行探索性数据分析并创建数据转换步骤后，您可以使用 SageMaker AI 处理作业生成转换代码，并使用SageMaker 模型构建管道自动执行准备工作流程。

Javascript 在您的浏览器中被禁用或不可用。

要使用 Amazon Web Services 文档，必须启用 Javascript。请参阅浏览器的帮助页面以了解相关说明。

文档惯例

API 参考