Amazon SageMaker 的 R 用户指南 - Amazon SageMaker

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

Amazon SageMaker 的 R 用户指南

该文档介绍了使用 R 以利用 Amazon SageMaker 功能的各种方法。该指南介绍了 SageMaker 的内置 R 内核,介绍了如何开始使用 SageMaker 上的 R,并最后介绍了几个示例笔记本。

这些示例分为三个级别:初级、中级和高级。它们从开始使用 SageMaker 上的 R 开始,使用 SageMaker 上的 R 进行端到端机器学习,然后以更高级的主题结束,例如使用 R 脚本的 SageMaker 处理以及 SageMaker 的自带 (BYO) R 算法。 

SageMaker 中的 R 内核

SageMaker 笔记本实例使用预装的 R 内核支持 R。此外,R 内核具有 reticulate 库,这是 R 到 Python 的接口,因此,您可以从 R 脚本中使用 SageMaker Python 开发工具包的功能。paws 是一个可选的库,您可以将其添加到 R 内核以获得更多功能。 

  • reticulatelibrary:提供 R 到 Amazon SageMaker Python SDK 的接口。reticulate 程序包在 R 和 Python 对象之间转换。

  • pawslibrary:提供 R 接口以对 AWS 服务进行 API 调用,工作方式与 boto3 类似。通过使用 paws,Python 开发人员可以使用 R 创建、配置和管理 AWS 服务,例如 EC2 和 S3。 

开始在 SageMaker 中使用 R

  •  使用 t2.medium 实例类型和默认存储大小创建笔记本实例。如果您打算继续将该实例用于更高级的示例,或者以后创建更大的实例,您可以选择更快的实例和更多的存储空间。

  • 等到笔记本状态变为“In Service”(正在使用),然后单击 Open Jupyter (打开 Jupyter)。

  • 从可用的环境列表中创建一个具有 R 内核的新笔记本。 

  • 在创建了新的笔记本时,您将会在笔记本环境的右上角看到 R 徽标,并且还会在该徽标下看到内核为 R。这表明 SageMaker 已成功为该笔记本启动 R 内核。

  • 或者,在您位于 Jupyter 笔记本时,您可以使用 Kernel (内核) 菜单,然后从 Change Kernel (更改内核) 选项中选择 R。

示例笔记本

先决条件

SageMaker 上的 R 入门:该示例笔记本介绍了如何使用 Amazon SageMaker 的 R 内核开发 R 脚本。在该笔记本中,您设置 SageMaker 环境和权限,从 UCI 机器学习存储库中下载鲍鱼数据集,对数据进行一些基本处理和可视化,然后将数据以 .csv 格式保存到 S3 中。

初级

使用 SageMaker 上的 R 的端到端机器学习:该示例笔记本扩展了前面的必备入门笔记本。您将了解如何通过鲍鱼数据集训练模型以预测鲍鱼年龄,这是通过壳中的环数测量的。在训练模型后,您创建一个终端节点,并将模型部署到该终端节点中。在创建终端节点后,您可以测试模型并生成预测。 reticulate 程序包将用作 R 到 Amazon SageMaker Python SDK 的接口。 

使用 R 内核进行 SageMaker 批量转换:该示例笔记本介绍了如何使用 SageMaker 的 Transformer API 和 XGBoost 算法执行批量转换作业。 该笔记本也使用鲍鱼数据集。

中级

R 中的 XGBoost 超参数优化:该示例笔记本扩展了前面使用鲍鱼数据集和 XGBoost 的初级笔记本。它介绍了如何使用超参数优化进行模型优化。 您还会了解如何使用批量转换进行批量预测,以及如何创建模型终端节点以进行实时预测。 

使用 R 的 Amazon SageMaker 处理:通过使用 SageMaker 处理,您可以预处理、后处理和运行模型评估工作负载。该示例说明了如何创建 R 脚本以编排处理作业。 

高级

在 SageMaker 中训练和部署您自己的 R 算法:您是否已具有 R 算法,并且要将其添加到 SageMaker 以优化、训练或部署该算法? 该示例介绍了如何使用自定义 R 程序包自定义 SageMaker 容器,一直到使用托管的终端节点推断 R 源模型。