連線至 Ray 任務中的資料 - AWS Glue

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

連線至 Ray 任務中的資料

AWS Glue Ray 任務可以使用各種專為您快速整合資料而設計的 Python 套件。我們提供了一組最小的相依性,以免造成您的環境混亂。如需有關這些預設內含項目的詳細資訊,請參閱 Ray 任務隨附的模組

注意

AWS Glue擷取、轉換和載入 (ETL) 提供了 DynamicFrame 抽象化,以簡化 ETL 工作流程,您可以在其中解決資料集中資料列之間的結構定義差異。 AWS GlueETL 提供其他功能:任務書籤和分組輸入檔案。我們目前不在 Ray 任務中提供對應的功能。

適用於 Spark 的 AWS Glue 為連線至特定資料格式、來源和接收器提供直接支援。在 Ray 中,適用於 pandas 和當前第三方程式庫的 AWS SDK 已實質涵蓋該需求。您將需要查閱這些程式庫,以了解可用的功能。

目前無法與 Amazon VPC 進行 AWS Glue for Ray 整合。若無公有路由,將無法存取 Amazon VPC 中的資源。如需有關使用 AWS Glue 搭配 Amazon VPC 的詳細資訊,請參閱 設定 (AWS PrivateLink) 的介面VPC端點 AWS Glue (AWS PrivateLink)

用於在 Ray 中處理資料的常用程式庫

Ray Data:Ray Data 提供了處理常用資料格式、來源和接收器的方法。如需有關 Ray Data 中支援之格式和來源的詳細資訊,請參閱 Ray Data 文件中的輸入/輸出。Ray Data 是一個固定程式庫而非通用程式庫,用於處理資料集。

Ray 針對 Ray Data 可能是您任務最佳解決方案的使用案例,提供某些指引。如需詳細資訊,請參閱 Ray 文件中的 Ray 使用案例

AWS熊貓 SDK(awswrangler)— 熊貓的 AWS SDK 是一種AWS產品,當您的轉換管理數據與熊貓管理數據時,可提供乾淨,經過測試的解決方案,用於讀取和寫入AWS服務。 DataFrames如需有關適用於 pandas 的 AWS SDK 支援的格式與來源詳細資訊,請參閱適用於 pandas 的 AWS SDK 文件中的 API 參考

如需如何使用適用於 pandas 的 AWS SDK 讀取和寫入資料的範例,請參閱適用於 pandas 的 AWS SDK 文件中的快速入門。適用於 pandas 的 AWS SDK 不提供資料轉換功能。其僅提供對於讀取與寫入來源的支援。

Modin:Modin 是一個 Python 程式庫,可採用分發套件方式實作常用的 pandas 操作。如需有關 Modin 的詳細資訊,請參閱 Modin 文件。Modin 本身不提供對於讀取與寫入來源的支援。其提供常用轉換的分發式實作。Modin 由適用於 pandas 的 AWS SDK 提供支援。

當您在 Ray 環境中一併執行 Modin 和適用於 pandas 的 AWS SDK 時,可執行具有高效能結果的常見 ETL 任務。如需有關將 Modin 與適用於 pandas 的 AWS SDK 搭配使用的詳細資訊,請參閱適用於 pandas 的 AWS SDK 文件中的大規模

其他架構 — 如需 Ray 支援之架構的詳細資訊,請參閱 Ray 文件中的 Ray 生態系統。我們不為 AWS Glue for Ray 提供其他架構支援。

透過資料型錄連線至資料

支援使用適用於 pandas 的 AWS SDK,透過資料型錄與 Ray 任務管理資料。如需詳細資訊,請參閱適用於 pandas 的 AWS SDK 網站上的 Glue Catalog