Spark ML による機能処理 sci-kit learn を使って特徴を処理する

SparkML と Scikit-learn による機能処理

Amazon SageMaker AI 組み込みアルゴリズムまたはカスタムアルゴリズムを使用してモデルをトレーニングする前に、Spark および scikit-learn プリプロセッサを使用してデータを変換し、機能を構築できます。

Spark ML による機能処理

SageMaker AI ノートブックからサーバーレス ETL (抽出、変換、ロード) サービスである AWS Glue を使用して Spark ML ジョブを実行できます。既存の EMR クラスターに接続し、Amazon EMR で Spark ML ジョブを実行することもできます。これを行うには、SageMaker AI ノートブックからへの呼び出しを行うためのアクセス許可を付与する AWS Identity and Access Management (IAM) ロールが必要です AWS Glue。

注記

AWS Glue サポートされている Python および Spark のバージョンを確認するには、AWS 「 Glue リリースノート」を参照してください。

エンジニアリング機能の後で、推論パイプラインに追加できる MLeap コンテナに、Spark ML ジョブを MLeap でパッケージ化およびシリアル化します。外部で管理された Spark クラスターを使用する必要はありません。この方法では、サンプルの行からテラバイト単位のデータにシームレスにスケールできます。同じトランスフォーマーがトレーニングおよび推論の両方で機能するため、事前処理や機能エンジニアリングロジックを複製したり、モデルを保持するための 1 回限りのソリューションを開発したりする必要はありません。推論パイプラインでは、外部のインフラストラクチャを維持する必要はなく、データ入力から直接予測を行うことができます。

Spark ML ジョブを実行すると AWS Glue、Spark ML パイプラインは MLeap 形式にシリアル化されます。次に、SageMaker AI 推論パイプラインの SparkML Model Serving Container でジョブを使用できます。MLeap は、Machine Learning パイプライン用のシリアル化フォーマットおよび実行エンジンです。Spark、Scikit-learn、TensorFlow をサポートして、パイプラインをトレーニングし、それらを MLeap Bundle と呼ばれるシリアル化されたパイプラインにエクスポートします。バンドルは、バッチモードスコアリングのために Spark に逆シリアル化したり、リアルタイム API サービスに使用するために MLeap ランタイムに逆シリアル化したりできます。

Spark ML でプロセスを機能させる方法を示す例については、「Amazon EMR で Apache Spark を使用して ML モデルをトレーニングし、SageMaker AI サンプルノートブックにデプロイする」を参照してください。

sci-kit learn を使って特徴を処理する

scikit-learn ジョブを実行して Amazon SageMaker AI のコンテナに直接パッケージ化できます。フィッシャーのアイリスの花のデータセットで学習し、さらに形態学的測定に基づいてアイリスの種を予測するシック学習風の特徴化モデルを作成するための Python コードの例については、「Sagemaker による IRIS トレーニングと予測」を参照してください。

ブラウザで JavaScript が無効になっているか、使用できません。

AWS ドキュメントを使用するには、JavaScript を有効にする必要があります。手順については、使用するブラウザのヘルプページを参照してください。

ドキュメントの表記規則

推論パイプライン

パイプラインモデルを作成する