在 Amazon Redshift 中使用机器学习
Amazon Redshift 机器学习 (Amazon Redshift ML) 是一种基于云的稳健服务,能够让所有技能水平的分析人员和数据科学家都能更轻松使用机器学习技术。您将要训练模型的数据以及与数据输入相关的元数据提供给 Amazon Redshift。然后,Amazon Redshift ML 将创建模型来捕获输入数据中的模式。接着,您可以使用这些模型为新输入数据生成预测,而不会产生额外的成本。
Amazon Redshift ML 如何与 Amazon SageMaker 结合使用
Amazon Redshift 与 Amazon SageMaker Autopilot 结合使用,以自动获取最佳模型并使预测函数在 Amazon Redshift 中可用。
下图说明了 Amazon Redshift ML 的工作原理。
常见工作流程如下:
-
Amazon Redshift 将训练数据导出到 Simple Storage Service(Amazon S3)中。
-
Amazon SageMaker Autopilot 预处理训练数据。预处理执行重要功能,例如插入缺失值。它认识到有些列是分类的(如邮政编码),正确设置它们的格式以进行训练,并执行许多其他任务。选择要应用于训练数据集的最佳预处理器本身就是一个问题,Amazon SageMaker Autopilot 可自动执行其解决方案。
-
Amazon SageMaker Autopilot 查找算法和算法超参数,从而为模型提供最准确的预测结果。
-
Amazon Redshift 会在您的 Amazon Redshift 集群中将预测函数注册为 SQL 函数。
-
当您运行 CREATE MODEL 语句时,Amazon Redshift 使用 Amazon SageMaker 进行训练。因此,训练模型会产生相关的成本。这是 Amazon SageMaker 在您的 AWS 账单中的单独行项目。您还需要为 Simple Storage Service(Amazon S3)中用于存储训练数据的存储支付费用。使用可在 Redshift 集群上编译和运行的 CREATE MODEL 创建的模型进行推断不会产生费用。使用 Amazon Redshift ML 不会产生额外的 Amazon Redshift 费用。