本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。
第 1 步:执行 EDA 并开发初始模型
在此步骤中,数据科学家执行探索性数据分析 (EDA),以了解机器学习用例和数据。然后,他们开发机器学习模型(例如分类和回归模型),以解决给定用例中的问题。在模型开发过程中,数据科学家经常对输入和输出做出假设,如数据格式、数据生命周期和中间输出的位置。这些假设应记录在案,以便在第 2 步的单元测试中用于验证。
尽管此步骤侧重于模型开发,但数据科学家通常需要编写最低数量的辅助代码用于预处理、训练、评估和推理数据。数据科学家应能在开发环境中运行此代码。我们还建议提供可选的运行时参数,以便动态配置此辅助代码,使其无需进行大量手动更改即可在其他环境中运行。这将加快第 2 步和第 3 步中模型和管道之间的集成。例如,用于读取原始数据的代码应封装在函数中,以便能够以一致的方式对数据进行预处理。
我们建议您从诸如 scikit-learn、、XGBoostPyTorch