Apache Spark SageMaker で Amazon でのモデルトレーニングとホスティングにカスタムアルゴリズムを使用する

ではSageMaker Spark for Scala の例、この例ではモデルトレーニングに Amazon が提供する k-means アルゴリズムを使用するkMeansSageMakerEstimatorため SageMaker 、を使用します。代わりに、モデルのトレーニングに独自のカスタムアルゴリズムを使用してもかまいません。Docker イメージが作成済みである場合、独自の SageMakerEstimator を作成でき、カスタムイメージの Amazon Elastic Container Registry パスを指定できます。

次のサンプルは、SageMakerEstimator から KMeansSageMakerEstimator を作成する方法を示しています。新しい推定器で、トレーニングや推論のコードイメージへの Docker レジストリパスを明示的に指定します。


import com.amazonaws.services.sagemaker.sparksdk.IAMRole
import com.amazonaws.services.sagemaker.sparksdk.SageMakerEstimator
import com.amazonaws.services.sagemaker.sparksdk.transformation.serializers.ProtobufRequestRowSerializer
import com.amazonaws.services.sagemaker.sparksdk.transformation.deserializers.KMeansProtobufResponseRowDeserializer

val estimator = new SageMakerEstimator(
  trainingImage =
    "811284229777.dkr.ecr.us-east-1.amazonaws.com/kmeans:1",
  modelImage =
    "811284229777.dkr.ecr.us-east-1.amazonaws.com/kmeans:1",
  requestRowSerializer = new ProtobufRequestRowSerializer(),
  responseRowDeserializer = new KMeansProtobufResponseRowDeserializer(),
  hyperParameters = Map("k" -> "10", "feature_dim" -> "784"),
  sagemakerRole = IAMRole(roleArn),
  trainingInstanceType = "ml.p2.xlarge",
  trainingInstanceCount = 1,
  endpointInstanceType = "ml.c4.xlarge",
  endpointInitialInstanceCount = 1,
  trainingSparkDataFormat = "sagemaker")

コード内の SageMakerEstimator コンストラクターのパラメータは次のとおりです。

trainingImage - カスタムコードが含まれるトレーニングイメージへの Docker レジストリパスを特定します。
modelImage - 推論コードが含まれるイメージへの Docker レジストリパスを特定します。
requestRowSerializer - com.amazonaws.services.sagemaker.sparksdk.transformation.RequestRowSerializer を実装します。

このパラメータは、入力内の行をシリアル化してDataFrame、推論 SageMaker のためにでホストされているモデルに送信します。
responseRowDeserializer - 次を実装します。

com.amazonaws.services.sagemaker.sparksdk.transformation.ResponseRowDeserializer.

このパラメータは、でホストされているモデルからのレスポンスを SageMakerに逆シリアル化しますDataFrame。
trainingSparkDataFormat - トレーニングデータを DataFrame から S3 にアップロードするときに Spark が使うデータ形式を指定します。例えば、"sagemaker"protobuf 形式"csv"の場合は、カンマ区切り値の場合は、LibSVM 形式"libsvm"の場合はです。

独自の RequestRowSerializer と ResponseRowDeserializer を実装し、推論コードが対応しているデータ形式 (.libsvm、.csv など) から行を逆シリアル化できます。

ブラウザで JavaScript が無効になっているか、使用できません。

AWS ドキュメントを使用するには、JavaScript を有効にする必要があります。手順については、使用するブラウザのヘルプページを参照してください。

ドキュメントの表記規則

SageMaker Spark for Scala の例

Spark パイプラインでを使用する SageMakerEstimator