本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。
Ray 是透過在叢集中分發任務來縱向擴展 Python 指令碼的架構。您可以使用 Ray 作為各種問題的解決方案,因此 Ray 提供程式庫以最佳化特定任務。在 中 AWS Glue,我們專注於使用 Ray 來轉換大型資料集。 AWS Glue 提供對 Ray Data 和 Ray Core 部分部分的支援,以促進此任務。
什麼是 Ray Core?
建立分發應用程式的第一步,即是識別與定義可同時執行的任務。Ray Core 包含部分的 Ray,可讓您用來定義能夠同時執行的任務。Ray 提供了參考與快速入門資訊,您可以使用這些資訊來學習其提供的工具。如需詳細資訊,請參閱 What is Ray Core?
Ray 任務與執行者
在 AWS Glue for Ray 文件中,我們可能會參考任務和演員,這是 Ray 的核心概念。
Ray 使用 Python 函數和類別作為分散式運算系統的建置區塊。就像 Python 函數和變數在類別中使用時會變為「方法」和「屬性」一樣,若在 Ray 中用於向工作者傳送程式碼,則函數會變為「任務」,且類別會變為「執行者」。您可依 @ray.remote
注釋,識別可能由 Ray 使用的函數和類別。
任務與執行者可供設定,其具有生命週期,且會在其生命週期中佔用運算資源。當您找到問題的根本原因時,引發錯誤的程式碼可以追溯至任務或執行者。因此,當您了解如何設定、監控或偵錯 Ray AWS Glue 任務時,可能會出現這些術語。
若要開始了解如何有效使用任務和執行者來建置分發應用程式,請參閱 Ray 文件中的 Key Concepts
適用於 Ray AWS Glue 的 中的 Ray Core
AWS Glue 適用於 Ray 環境管理叢集的形成和擴展,以及收集和視覺化日誌。我們管理這些問題,因此會限制存取和支援在 Ray Core 中用來解決這些開放原始碼叢集問題的 API。
在受管 Ray2.4
執行期環境中,我們不支援以下項目:
ray.util.metrics
Prometheus 指標公用程式方法:其他偵錯工具:
什麼是 Ray Data?
當您連線至資料來源和目的地、處理資料集以及啟動常見轉換時,Ray Data 是使用 Ray 解決 Ray 資料集轉換問題的簡單方法。如需有關使用 Ray Data 的詳細資訊,請參閱 Ray 資料集:分散式資料預先處理
您可以使用 Ray Data 或其他工具來存取資料。如需有關在 Ray 中存取資料的詳細資訊,請參閱 連線至 Ray 任務中的資料。
適用於 Ray AWS Glue 的 中的 Ray 資料
在受管 Ray2.4
執行期環境中,預設會支援並提供 Ray Data。如需有關所提供模組的詳細資訊,請參閱 Ray 任務隨附的模組。