SageMaker Spark for Python (PySpark) の例 - Amazon SageMaker

翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。

SageMaker Spark for Python (PySpark) の例

Amazon SageMaker は、Apache Spark アプリケーションをSageMaker PySparkと統合するために使用できる Apache Spark Python ライブラリ ( ) を提供しています SageMaker。例えば、Apache Spark をデータの前処理やモデルトレーニング、ホスティング SageMaker に使用できます。 SageMaker Apache Spark ライブラリの詳細については、「」を参照してくださいAmazon で Apache Spark を使用する SageMaker

ダウンロード PySpark

Python Spark (PySpark) ライブラリと Scala ライブラリの両方のソースコードを SageMaker Spark GitHub リポジトリからダウンロードできます。

SageMaker Spark ライブラリのインストール手順については、以下のオプションを使用するか、SageMaker PySpark「」を参照してください。

  • pip を使用して をインストールします。

    pip install sagemaker_pyspark
  • ソースから をインストールします。

    git clone git@github.com:aws/sagemaker-spark.git cd sagemaker-pyspark-sdk python setup.py install
  • Sparkmagic (PySpark) または カーネルのいずれかを使用してリモート Amazon EMR Sparkmagic (PySpark3) クラスターに接続するノートブックインスタンスに新しいノートブックを作成することもできます。

    注記

    Amazon EMR クラスターは、AmazonSageMakerFullAccessポリシーがアタッチされた IAM ロールで設定する必要があります。EMR クラスターのロールの設定については、Amazon EMR 管理ガイドの「AWS サービスに Amazon EMR の許可の IAM ロールを設定する」を参照してください。

PySpark 例

の使用例については SageMaker PySpark、以下を参照してください。

ノートブックをノートブックインスタンスで実行する場合は、「サンプルノートブック」を参照してください。Studio でノートブックを実行する場合は、「Amazon SageMaker Studio Classic ノートブックを作成または開く」を参照してください。