本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。
探索、分析和处理数据
使用数据集训练模型之前,数据科学家通常会对其进行探索、分析和预处理。
亚马逊 SageMaker Processing 使正在运行的作业能够对数据进行预处理和后处理、执行特征工程和评估模型 SageMaker 轻松、大规模地。当与提供的其他关键机器学习任务结合使用时 SageMaker,例如培训和托管,Processing 为您提供了完全托管的机器学习环境的好处,包括内置的所有安全性和合规性支持 SageMaker. 借助 Processing,您可以灵活地使用内置的数据处理容器,也可以自带容器并提交自定义作业以在托管基础架构上运行。在你提交工作后, SageMaker 启动计算实例,处理和分析输入数据,并在完成后释放资源。有关更多信息,请参阅 流程数据。
-
有关如何运行您自己的数据处理脚本的信息,请参阅使用 scikit-learn 进行数据处理.
-
有关如何构建您自己的处理容器以运行脚本的信息,请参阅构建您自己的处理容器(高级方案)。
-
有关如何使用可视化无代码界面执行探索性数据分析 (EDA) 的信息,请参见使用亚马逊 Data Wrangler 准备 ML SageMaker 数据.