Amazon EMR 用の Apache Spark アップグレードエージェントとは - Amazon EMR

翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。

Amazon EMR 用の Apache Spark アップグレードエージェントとは

序章

Amazon EMR 用 Apache Spark アップグレードエージェントは、EMR アプリケーションの Apache Spark バージョンアップグレードを高速化する会話型 AI 機能です。従来の Spark のアップグレードでは、API の変更を分析し、依存関係の競合を解決し、機能の正確性を検証するために数か月のエンジニアリング作業が必要です。エージェントは、自然言語プロンプト、自動コード変換、データ品質検証を通じてアップグレードプロセスを簡素化します。

エージェントを使用して、EC2 および Amazon EMR Serverless 上の Amazon EMR で実行されている PySpark および Scala アプリケーションをアップグレードできます。エージェントはコードを分析し、必要な変更を特定し、すべての変更の承認コントロールを維持しながら自動変換を実行します。

アーキテクチャの概要

アップグレードエージェントには 3 つの主なコンポーネントがあります。インタラクション用の開発環境の MCP 互換 AI Assistant、クライアントと MCP AWS サーバー間の安全な通信を処理する の MCP Proxy、Amazon EMR 専用の Spark アップグレードツールを提供する Amazon SageMaker Unified Studio Managed MCP Server (プレビュー) です。この図は、AI Assistant を通じて Amazon SageMaker Unified Studio Managed MCP Server を操作する方法を示しています。

Apache Spark エージェントのアップグレード

AI アシスタントは、次のステップに従って MCP サーバーが提供する特殊なツールを使用してアップグレードを調整します。

  1. 計画: エージェントはプロジェクト構造を分析し、end-to-endの Spark アップグレードプロセスをガイドするアップグレードプランを生成または修正します。

  2. コンパイルとビルド: エージェントはビルド環境と依存関係を更新し、プロジェクトをコンパイルして、ビルドとテストの失敗を繰り返し修正します。

  3. Spark コード編集ツール: エージェントは、ターゲットを絞ったコード更新を適用して Spark バージョンの非互換性を解決し、ビルドタイムエラーとランタイムエラーの両方を修正します。

  4. 実行と検証: エージェントは EMR にリモート検証ジョブを送信し、実行とログをモニタリングして、ランタイムとデータ品質の問題を繰り返し修正します。

  5. オブザーバビリティ: エージェントは EMR オブザーバビリティツールを使用してアップグレードの進行状況を追跡し、ユーザーはいつでもアップグレード分析とステータスを表示できます。

各ステップの主要なツールのリストSpark アップグレードツールの使用については、「」を参照してください。