连接 Ray 作业中的数据 - AWS Glue

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

连接 Ray 作业中的数据

AWS Glue Ray 作业可以使用各种 Python 包,这些包专为快速集成数据而设计。我们提供了一组最少的依赖关系,以免您的环境混乱。有关默认情况下包含内容的更多信息,请参阅 Ray 作业提供的模块

注意

AWS Glue 提取、转换、加载(ETL)提供 DynamicFrame 抽象化来简化 ETL 工作流程,在这些工作流程中,您可以解决数据集各行之间的架构差异。AWS GlueETL 还提供其他功能,例如作业书签和分组输入文件。我们目前不在 Ray 作业中提供相应的功能。

AWS Glue for Spark 直接支持连接到某些数据格式、源和接收器。在 Ray 中,适用于 Pandas 的 AWS 开发工具包和最新的第三方库在很大程度上满足了这一需求。您需要查阅这些库,以了解有哪些功能可用。

AWS Glue for Ray 目前无法与 Amazon VPC 集成。如果没有公共路由,就无法访问 Amazon VPC 中的资源。有关将 AWS Glue 与 Amazon VPC 结合使用的更多信息,请参阅 AWS Glue 和接口 VPC 端点 (AWS PrivateLink)

在 Ray 中处理数据的常用库

Ray Data – Ray Data 提供了处理常见数据格式、源和接收器的方法。有关 Ray Data 中支持的格式和源的更多信息,请参阅 Ray Data 文档中的 Input/Output。Ray Data 是一个坚持己见的库,而不是一个用于处理数据集的通用库。

Ray 围绕 Ray Data 可能是您工作的最佳解决方案的用例提供了某些指导。有关更多信息,请参阅 Ray 文档中的 Ray use cases

适用于 Pandas 的 AWS 开发工具包(awswrangler) – 适用于 Pandas 的 AWS 开发工具包是一款 AWS 产品,当您使用 pandas DataFrames 进行转换管理数据时,该产品提供经过测试的简洁解决方案,用于读取和写入 AWS 服务。有关适用于 Pandas 的 AWS 开发工具包中支持的格式和来源的更多信息,请参阅AWS适用于 Pandas 的开发工具包文档中的 API Reference

有关如何使用适用于 Pandas 的 AWS 开发工具包读取和写入数据的示例,请参阅适用于 Pandas 的 AWS 开发工具包文档中的 Quick Start。适用于 Pandas 的 AWS 开发工具包不为您的数据提供转换。它仅支持从源读取和写入。

Modin – Modin 是一个 Python 库,它以可分发的方式实现了常见的 Pandas 操作。有关 Modin 的更多信息,请参阅 Modin 文档。Modin 本身不提供从源读取和写入的支持。它提供常见转换的分布式实现。适用于 Pandas 的 AWS 开发工具包支持 Modin。

当您在 Ray 环境中同时运行 Modin 和适用于 Pandas 的 AWS 开发工具包时,您可以执行常见的 ETL 任务并获得高性能结果。有关将 Modin 与适用于 Pandas 的 AWS 开发工具包一起使用的更多信息,请参阅适用于 Pandas 的 AWS 开发工具包文档中的 At scale

其他框架 - 有关 Ray 支持的框架的更多信息,请参阅 Ray 文档中的 The Ray Ecosystem。我们不为 AWS Glue for Ray 中的其他框架提供支持。

通过 Data Catalog 连接

适用于 Pandas 的 AWS 开发工具包支持通过 Data Catalog 与 Ray 作业一起管理数据。有关更多信息,请参阅适用于 Pandas 的 AWS 开发工具包网站上的 Glue 目录