本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。
使用 Amazon 进行机器学习概述 SageMaker
本节介绍典型的机器学习 (ML) 工作流程,并介绍如何使用 Amazon 完成这些任务 SageMaker。
在机器学习中,你教计算机做出预测或推断。首先,您使用一种算法和示例数据来训练模型。然后,您将模型集成到应用程序中,以实时和大规模地生成推论。
下图显示了创建 ML 模型的典型工作流程。它包括循环流程中的三个阶段,我们将在下图中详细介绍这些阶段:
-
生成示例数据
-
训练模型
-
部署模型
该图显示了在大多数典型场景中如何执行以下任务:
-
生成示例数据-要训练模型,您需要示例数据。您需要的数据类型取决于您希望模型解决的业务问题。这与您希望模型生成的推论有关。例如,如果您想创建一个模型,该模型可以根据手写数字的输入图像预测一个数字。要训练这个模型,你需要手写数字的示例图像。
数据科学家通常会花时间探索和预处理示例数据,然后再将其用于模型训练。要对数据进行预处理,您通常执行以下操作:
-
获取数据-您可能有内部示例数据存储库,或者可能使用公开可用的数据集。通常,您将一个或多个数据集提取到单个存储库中。
-
清理数据-要改进模型训练,请根据需要检查数据并对其进行清理。例如,如果您的数据具有值为的
country name
属性United States
US
,则可以编辑数据以保持一致。 -
准备或转换数据-为了提高性能,您可以执行其他数据转换。例如,您可以选择组合模型的属性,该模型可以预测飞机需要除冰的情况。您可以将这些属性组合成一个新属性以获得更好的模型,而不必单独使用温度和湿度属性。
在中 SageMaker,您可以在集成开发环境SDK中使用 SageMaker Python
对示例数据进行SageMaker APIs预处理 (IDE)。使用 f SDK or Python (Boto3),您可以获取、浏览和准备数据以进行模型训练。有关数据准备、处理和转换数据的信息,请参阅关于选择正确的数据准备工具的建议 SageMaker使用处理作业来运行数据转换工作负载、和通过功能商店创建、存储和共享功能。 -
-
训练模型-模型训练包括训练和评估模型,如下所示:
-
训练模型-要训练模型,需要算法或预先训练的基础模型。您选择的算法取决于许多因素。对于内置解决方案,您可以使用 SageMaker 提供的算法之一。有关提供的算法列表 SageMaker 和相关注意事项,请参阅使用 Amazon SageMaker 内置算法或预训练模型。有关提供算法和模型的基于 UI 的训练解决方案,请参阅 使用训练、部署和评估预训练模型 SageMaker JumpStart。
您还需要适用于训练的计算资源。您的资源使用取决于训练数据集的大小以及您需要结果的速度。您可以使用各种资源,从单个通用实例到分布式GPU实例集群。有关更多信息,请参阅 使用 Amazon 训练模型 SageMaker。
-
评估模型-训练模型后,对其进行评估以确定推断的准确性是否可接受。要训练和评估您的模型,请使用 SageMaker Python SDK
向模型发送请求,以便通过其中一个可用IDEs模型进行推断。有关评估模型的更多信息,请参阅使用 Amazon 模型监视器监控数据和 SageMaker 模型质量。
-
-
部署模型 — 传统上,您需要先重新设计模型,然后再将其与应用程序集成并进行部署。借助 SageMaker 托管服务,您可以独立部署模型,从而将其与应用程序代码分离。有关更多信息,请参阅 部署模型用于推理。
机器学习是连续的周期。部署模型后,您可以监控推论,收集更多高质量数据,并评估模型以识别偏差。然后,您可以更新训练数据以包含新收集的高质量数据,从而提高推断的准确性。随着更多示例数据可用,您可以继续重新训练模型以提高准确性。