Ray ジョブのデータに接続する - AWS Glue

翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。

Ray ジョブのデータに接続する

AWS Glue Ray ジョブでは、データをすばやく統合するために設計されたさまざまな Python パッケージを使用できます。環境が混乱した状態にならないよう、最低限の依存関係のみが提供されています。デフォルトで含まれる内容の詳細については、「Ray ジョブで提供されるモジュール」を参照してください。

注記

AWS Glue 抽出、変換、ロード (ETL) は、DynamicFrame の抽象化を提供し、データセット内の行間におけるスキーマの違いを解決する ETL ワークフローを効率化します。AWS GlueETL には、ジョブのブックマークや入力ファイルのグループ化など、追加機能があります。Ray ジョブには現在、対応する機能は提供されていません。

AWS Glue for Spark では、特定のデータ形式、ソース、シンクへの接続を直接サポートしています。Ray では、AWS SDK for pandas と現在のサードパーティーライブラリがそれらのニーズを実質的にカバーしています。どのような機能を利用できるか理解するには、これらのライブラリを調べる必要があります。

AWS Glue for Ray の Amazon VPC との統合は、現在ご利用いただけません。Amazon VPC 内のリソースには、パブリックルートがないとアクセスできません。Amazon VPC での AWS Glue の使用に関する詳細は、「(AWS PrivateLink) のインターフェイスVPCエンドポイント AWS Glue (AWS PrivateLink) の設定」を参照してください。

Ray でデータを使用するための共通ライブラリ

Ray Data — Ray Data は、一般的なデータ形式、ソース、シンクを処理する方法を提供します。Ray Data でサポートされている形式とソースの詳細については、Ray Data のドキュメントの「Input/Output」を参照してください。Ray Data は、データセットを扱うための汎用のライブラリではなく特化型のライブラリです。

Ray では、Ray Data がユーザーの作業に最適なソリューションとなるユースケースについて、特定のガイダンスを提供します。詳細については、Ray のドキュメントの「Ray の使用例」を参照してください。

AWS SDK for pandas (awswrangler) – AWS SDK for pandas は、pandas の DataFrames を使用して、変換によりデータを管理する際に、AWS サービスでの読み取りと書き込みを行うためのクリーンなテスト済みのソリューションを提供する AWS の製品です。AWS SDK for pandas でサポートされている形式とソースの詳細については、AWS SDK for pandas のドキュメントの「API Reference」を参照してください。

AWS SDK for pandas を使用してデータを読み書きする方法の例については、AWS SDK for pandas のドキュメントの「Quick Start」を参照してください。AWS SDK for pandas では、データの変換は行いません。ソースからの読み取りと書き込みのみサポートしています。

Modin — Modin は、一般的な pandas のオペレーションを配布可能な方法で実装している Python ライブラリです。Modin の詳細については、Modin のドキュメントを参照してください。Modin 自体は、ソースからの読み取りと書き込みをサポートしていません。一般的な変換の分散実装を行います。Modin は AWS SDK for pandas でサポートされています。

Modin を実行し、AWS SDK for pandas と共に Ray 環境で使用すると、高いパフォーマンスで一般的な ETL タスクを実行できます。Modin を AWS SDK for pandas と併用する方法の詳細については、AWS SDK for pandas のドキュメントの「At scale」を参照してください。

その他のフレームワーク — Ray がサポートしているフレームワークの詳細については、Ray のドキュメントの「Ray エコシステム」を参照してください。AWS Glue for Ray はその他のフレームワークをサポートしていません。

データカタログを介したデータへの接続

Ray ジョブと組み合わせたデータカタログによるデータ管理は、AWS SDK for pandas でサポートされています。詳細については、AWS SDK for pandas ウェブサイトの「Glue Catalog」(Glue カタログ) を参照してください。