を使用してデータを準備する AWS Glue インタラクティブセッション - Amazon SageMaker

翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。

を使用してデータを準備する AWS Glue インタラクティブセッション

AWS Glue インタラクティブセッションは、データレイクとデータパイプラインに保存するデータを収集、変換、クリーニング、準備するために登録できるサーバーレスサービスです。 AWS Glue インタラクティブセッションは、オンデマンドのサーバーレス Apache Spark ランタイム環境を提供します。このランタイム環境は、複雑なコンピューティングクラスターインフラストラクチャをプロビジョニングおよび管理することなく、専用のデータ処理ユニット (DPU) で数秒で初期化できます。初期化後、 を参照できます。 AWS Glue データカタログ、大規模なクエリの実行、 によって管理されるデータへのアクセス AWS Lake Formation Studio または Studio Classic ノートブックで、Spark を使用してデータをインタラクティブに分析および準備できます。その後、準備されたデータを使用して、 SageMaker Studio または Studio Classic 内の専用 ML ツールを使用してモデルをトレーニング、調整、デプロイできます。考慮する必要があります AWS Glue 設定可能性と柔軟性を中程度に制御するサーバーレス Spark サービスが必要な場合のデータ準備ワークロードのインタラクティブセッション。

は開始できます。 AWS Glue Studio または Studio Classic で JupyterLab ノートブックを起動して、 インタラクティブセッションを行います。ノートブックを起動するときは、組み込みの Glue Spark Glue PySpark and Rayまたはカーネルを選択します。これにより、インタラクティブなサーバーレス Spark セッションが自動的に開始されます。コンピューティングクラスターやインフラストラクチャをプロビジョニングまたは管理する必要はありません。初期化後、 AWS Glue Data Catalog、複雑なクエリの実行、Studio または Studio Classic ノートブック内の Spark を使用したデータのインタラクティブな分析と準備を行います。その後、準備されたデータを使用して、 内の専用 ML ツールを使用してモデルを構築、トレーニング、調整、デプロイできます SageMaker。

を起動する前に AWS Glue Studio または Studio Classic の インタラクティブセッションでは、適切なロールとポリシーを設定する必要があります。さらに、ストレージ Amazon S3 バケットなどの追加のリソースへのアクセスを提供する必要がある場合があります。必要なIAMポリシーの詳細については、「」を参照してくださいのアクセス許可 AWS Glue Studio または Studio Classic の インタラクティブセッション

Studio と Studio Classic は、 のデフォルト設定を提供します。 AWS Glue ただし、 インタラクティブセッションは AWS Glue環境をさらにカスタマイズするための の Jupyter マジックコマンドの完全なカタログ。で使用できるデフォルトおよび追加の Jupyter マジックの詳細については、「」を参照してください。 AWS Glue インタラクティブセッションについては、「」を参照してくださいの設定 AWS Glue Studio または Studio Classic での インタラクティブセッション

  • Studio Classic ユーザーが を開始する場合 AWS Glue インタラクティブセッションでは、次のイメージとカーネルから選択できます。

    • イメージ: SparkAnalytics 1.0SparkAnalytics 2.0

    • カーネル: Glue Python [PySpark and Ray]および Glue Spark

  • Studio ユーザーの場合は、デフォルトのSageMaker ディストリビューションイメージを使用して、 Glue Python [PySpark and Ray]またはGlue Sparkカーネルを選択します。