AWS Glue for Ray での Ray Core と Ray Data の使用 - AWS Glue

翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。

AWS Glue for Ray での Ray Core と Ray Data の使用

Ray は、クラスター全体に作業を分散することで Python スクリプトをスケールアップするためのフレームワークです。Ray はさまざまな問題の解決策として利用できます。つまり、特定のタスクを最適化するためのライブラリを提供しています。AWS Glue では、Ray を使用して大規模なデータセットを変換することに重点を置いています。AWS Glue は Ray Core の一部と Ray Data をサポートしているため、このタスクが容易になります。

Ray Core とは

分散アプリケーションを構築する最初のステップは、同時に実行できる作業を特定して定義することです。Ray Core には、同時に実行できるタスクを定義するために使用する Ray の機能が一部含まれています。Ray では、提供されるツールを学習するのに役立つリファレンスおよびクイックスタート情報を入手できます。詳細については、「What is Ray Core?」と「Ray Core Quick Start」を参照してください。Ray で同時タスクを効果的に定義する方法の詳細については、「Tips for first-time users」を参照してください。

Ray のタスクとアクター

AWS Glue for Ray ドキュメントでは、Ray の中核的な概念であるタスクとアクターについて言及することがあります。

Ray では、分散コンピューティングシステムの構成要素として Python の関数とクラスを使用します。Python の関数や変数をクラスで使用すると「メソッド」や「属性」になるのと同様に、ワーカーにコードを送信するために Ray で使用すると、関数は「タスク」になり、クラスは「アクター」になります。Ray で使用される可能性のある関数やクラスは、@ray.remote アノテーションで識別できます。

タスクとアクターは設定可能で、ライフサイクルがあり、そのライフサイクルを通じてコンピューティングリソースを消費します。エラーをスローするコードは、問題の根本原因を見つける場合に、タスクまたはアクターまでさかのぼることができます。したがって、AWS Glue for Ray ジョブの設定、モニタリング、デバッグの方法を学習するときに、これらの用語が出現する可能性があります。

タスクとアクターを効果的に使用して分散アプリケーションを構築する方法を学習するには、Ray のドキュメントの「Key Concepts」を参照してください。

AWS Glue for Ray での Ray Core

AWS Glue for Ray 環境では、ログの収集と視覚化だけでなく、クラスターの形成とスケーリングも管理します。こうした懸念事項を管理しているため、当社は、オープンソースのクラスターでこれらの対処に使用される、Ray Core の API へのアクセスとサポートを制限しています。

マネージド Ray2.4 ランタイム環境では、以下はサポートされていません。

Ray Data とは

データソースや送信先に接続する場合、データセットを処理する場合、一般的な変換を開始する場合などに Ray Data を使用すれば、Ray データセットの変換に関する問題を Ray で簡単に解決できます。Ray Data の使用方法の詳細については、「Ray Datasets: Distributed Data Preprocessing」を参照してください。

Ray Data やその他のツールを使用すると、データにアクセスできます。Ray 内におけるデータへのアクセスの詳細については、「Ray ジョブのデータに接続する」を参照してください。

AWS Glue for Ray での Ray Data

Ray Data では、マネージド Ray2.4 ランタイム環境がデフォルトでサポートおよび提供されています。提供されるモジュールの詳細については、「Ray ジョブで提供されるモジュール」を参照してください。