翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。
Ray ジョブのデータに接続する
AWS Glue Ray ジョブでは、データをすばやく統合するために設計されたさまざまな Python パッケージを使用できます。環境が混乱した状態にならないよう、最低限の依存関係のみが提供されています。デフォルトで含まれる内容の詳細については、「Ray ジョブで提供されるモジュール」を参照してください。
注記
AWS Glue 抽出、変換、ロード (ETL) は、DynamicFrame の抽象化を提供し、データセット内の行間におけるスキーマの違いを解決する ETL ワークフローを効率化します。AWS GlueETL には、ジョブのブックマークや入力ファイルのグループ化など、追加機能があります。Ray ジョブには現在、対応する機能は提供されていません。
AWS Glue for Spark では、特定のデータ形式、ソース、シンクへの接続を直接サポートしています。Ray では、AWS SDK for pandas と現在のサードパーティーライブラリがそれらのニーズを実質的にカバーしています。どのような機能を利用できるか理解するには、これらのライブラリを調べる必要があります。
AWS Glue for Ray の Amazon VPC との統合は、現在ご利用いただけません。Amazon VPC 内のリソースには、パブリックルートがないとアクセスできません。Amazon VPC での AWS Glue の使用に関する詳細は、「(AWS PrivateLink) のインターフェイスVPCエンドポイント AWS Glue (AWS PrivateLink) の設定」を参照してください。
Ray でデータを使用するための共通ライブラリ
Ray Data — Ray Data は、一般的なデータ形式、ソース、シンクを処理する方法を提供します。Ray Data でサポートされている形式とソースの詳細については、Ray Data のドキュメントの「Input/Output
Ray では、Ray Data がユーザーの作業に最適なソリューションとなるユースケースについて、特定のガイダンスを提供します。詳細については、Ray のドキュメントの「Ray の使用例
AWS SDK for pandas (awswrangler) – AWS SDK for pandas は、pandas の DataFrames を使用して、変換によりデータを管理する際に、AWS サービスでの読み取りと書き込みを行うためのクリーンなテスト済みのソリューションを提供する AWS の製品です。AWS SDK for pandas でサポートされている形式とソースの詳細については、AWS SDK for pandas のドキュメントの「API Reference
AWS SDK for pandas を使用してデータを読み書きする方法の例については、AWS SDK for pandas のドキュメントの「Quick Start
Modin — Modin は、一般的な pandas のオペレーションを配布可能な方法で実装している Python ライブラリです。Modin の詳細については、Modin のドキュメント
Modin を実行し、AWS SDK for pandas と共に Ray 環境で使用すると、高いパフォーマンスで一般的な ETL タスクを実行できます。Modin を AWS SDK for pandas と併用する方法の詳細については、AWS SDK for pandas のドキュメントの「At scale
その他のフレームワーク — Ray がサポートしているフレームワークの詳細については、Ray のドキュメントの「Ray エコシステム
データカタログを介したデータへの接続
Ray ジョブと組み合わせたデータカタログによるデータ管理は、AWS SDK for pandas でサポートされています。詳細については、AWS SDK for pandas ウェブサイトの「Glue Catalog