在 AWS Glue 中使用 Ray 任務 - AWS Glue

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

在 AWS Glue 中使用 Ray 任務

本節提供有關使用 AWS Glue for Ray 任務的資訊。如需有關撰寫 AWS Glue for Ray 指令碼的詳細資訊,請參閱 Ray 指令碼程式設計 一節。

AWS Glue for Ray 入門

若要使用 AWS Glue for Ray,您可使用與 AWS Glue for Spark 相同的 AWS Glue 任務和互動式工作階段。AWS Glue 任務旨在以週期性節奏執行相同的指令碼,而互動式工作階段則可讓您針對相同的佈建資源,依序執行程式碼片段。

AWS Glue ETL 和 Ray 的底層有所不同,因此在指令碼中,您可以存取不同的工具、功能和組態。作為由 AWS Glue 管理的新運算架構,Ray 具有不同的架構,並使用不同的詞彙來描述其作用。如需詳細資訊,請參閱 Ray 文件中的 Architecture Whitepapers (架構白皮書)。

注意

AWS Glue for Ray 已在美國東部 (維吉尼亞北部)、美國東部 (俄亥俄)、美國西部 (奧勒岡)、亞太區域 (東京) 及歐洲 (愛爾蘭) 推出。

AWS Glue Studio 主控台中的 Ray 任務

在 AWS Glue Studio 主控台的任務頁面上,您可以在 AWS Glue Studio—Ray 指令碼編輯器中建立任務時選擇一個新選項。選擇此選項可在主控台中建立 Ray 任務。如需有關這些任務及其使用方式的詳細資訊,請參閱 使用 AWS Glue Studio 建立視覺化 ETL 任務

AWS Glue Studio 中的任務頁面,其中選取了 Ray 指令碼編輯器選項。

AWS CLI 和 SDK 中的 Ray 任務

AWS CLI 中的 Ray 任務使用與其他任務相同的 SDK 動作及參數。AWS Glue for Ray 為某些參數引入新值。如需有關任務 API 的詳細資訊,請參閱 任務

支援的 Ray 執行期環境

在 Spark 任務中,GlueVersion 會決定在 AWS Glue for Spark 任務中可用的 Apache Spark 和 Python 的版本。Python 版本指示針對 Spark 類型任務支援的版本。這不是 Ray 執行期環境的設定方式。

針對 Ray 任務,您應將 GlueVersion 設定為 4.0 (或更高版本)。不過,Ray 任務中可用的 Ray、Python 和其他程式庫的版本由任務定義中的 Runtime 欄位決定。

Ray2.4 執行期環境將在發布後至少可用 6 個月。隨著 Ray 的快速發展,您將能夠透過未來的執行期環境發行版本合併 Ray 更新和改進。

有效值:Ray2.4

執行期值 Ray 和 Python 版本
Ray2.4 (適用於 AWS Glue 4.0+)

Ray 2.4.0

Python 3.9

其他資訊

計算 Ray 任務中的工作者

AWS Glue 在新的以 Graviton 為基礎的 EC2 工作者類型上執行 Ray 任務,這些工作者類型僅適用於 Ray 任務。為了適當地為工作負載 (專門為其設計了 Ray) 佈建這些工作者,我們提供了與大多數工作者不同的運算資源與記憶體資源比率。為了計算這些資源,我們使用記憶體最佳化資料處理單元 (M-DPU),而不是標準資料處理單元 (DPU)。

  • 一個 M-DPU 對應 4 個 vCPU 和 32 GB 記憶體。

  • 一個 DPU 對應 4 個 vCPU 和 16 GB 記憶體。DPU 用於透過 Spark 任務和對應的工作者來計算 AWS Glue 中的資源。

Ray 任務目前擁有一種工作者類型 (即 Z.2X) 的存取權。Z.2X 工作者映射至 2 個 M-DPU (8 個 vCPU、64 GB 記憶體),且擁有 128 GB 的磁碟空間。Z.2X 機器提供 8 個 Ray 工作者 (每個 vCPU 一個)。

您可以在帳戶中同時使用的 M-DPU 數量取決於服務配額。如需有關 AWS Glue 帳戶限制的詳細資訊,請參閱 AWS Glue 端點和配額

您可以在任務定義中使用 --number-of-workers (NumberOfWorkers) 指定可用於 Ray 任務的工作節點數量。如需有關任務 API 中 Ray 值的詳細資訊,請參閱 任務

您可以進一步指定 Ray 任務必須與 --min-workers 任務參數一起配置的工作者數量下限。如需有關任務參數的詳細資訊,請參閱 參考資料