Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.
Verwenden Sie Apache Spark mit Amazon SageMaker
Amazon SageMaker Spark ist eine Open-Source-Spark-Bibliothek, mit SageMaker der Sie Spark-Pipelines für maschinelles Lernen (ML) erstellen können. Dies vereinfacht die Integration von Spark-ML-Phasen in SageMaker Phasen wie Modelltraining und Hosting. Informationen zu SageMaker Spark finden Sie im SageMaker GitHubSpark-Repository
Die SageMaker Spark-Bibliothek ist in Python und Scala verfügbar. Sie können SageMaker Spark verwenden, um Modelle bei der SageMaker Verwendung von org.apache.spark.sql.DataFrame
Datenrahmen in Ihren Spark-Clustern zu trainieren. Nach dem Modelltraining können Sie das Modell auch mithilfe von SageMaker Hosting-Diensten hosten.
Die SageMaker Spark-Bibliothek bietet unter anderem die folgenden Klassen: com.amazonaws.services.sagemaker.sparksdk
-
SageMakerEstimator
– Erweitert dieorg.apache.spark.ml.Estimator
Schnittstelle. Sie können diesen Schätzer für das Modelltraining in SageMaker verwenden. -
KMeansSageMakerEstimator
,PCASageMakerEstimator
, undXGBoostSageMakerEstimator
– Erweitert dieSageMakerEstimator
Klasse. -
SageMakerModel
– Erweitertorg.apache.spark.ml.Model
Klasse. Sie können ihn zum Hosten von Modellen undSageMakerModel
zum Ableiten von Schlussfolgerungen in verwenden. SageMaker
Sie können den Quellcode für die Bibliotheken Python Spark (PySpark) und Scala aus dem SageMaker GitHubSpark-Repository
Die Installation und Beispiele der SageMaker Spark-Bibliothek finden Sie unter SageMaker Beispiele für Spark für Scala oderSageMaker Beispiele für Spark für Python (PySpark).
Wenn Sie Amazon EMR on AWS zur Verwaltung von Spark-Clustern verwenden, finden Sie weitere Informationen unter Apache Spark
Themen
Integrieren Sie Ihre Apache Spark-Anwendung mit SageMaker
Im Folgenden finden Sie eine allgemeine Zusammenfassung der Schritte zur Integration Ihrer Apache Spark-Anwendung mit SageMaker.
-
Setzen Sie die Datenvorverarbeitung mithilfe der Apache Spark-Bibliothek fort, mit der Sie vertraut sind. Ihr Datensatz bleibt ein
DataFrame
in Ihrem Spark-Cluster. Laden Sie die Daten in denDataFrame
und starten Sie die Vorverarbeitung, damit Sie diefeatures
-Spalte mit einemorg.apache.spark.ml.linalg.Vector
-Element desDoubles
-Typs und eine optionalelabel
-Spalte mit Werten desDouble
-Typs erhalten. -
Verwenden Sie den Schätzer in der SageMaker Spark-Bibliothek, um Ihr Modell zu trainieren. Wenn Sie beispielsweise den von SageMaker for model training bereitgestellten K-Means-Algorithmus wählen, rufen Sie die
KMeansSageMakerEstimator.fit
Methode auf.Geben Sie Ihren
DataFrame
als Eingabe an. Von der Schätzfunktion wird einSageMakerModel
-Objekt zurückgegeben.Anmerkung
SageMakerModel
ist eine Erweiterung vonorg.apache.spark.ml.Model
.Von der
fit
-Methode werden folgende Schritte ausgeführt:-
Der als Eingabe spezifizierte
DataFrame
wird in das "protobuf"-Format konvertiert. Dazu erfolgt eine Auswahl der Spaltenfeatures
undlabel
aus dem EingabeDataFrame
sowie der Upload der "protobuf"-Daten in einen Amazon-S3-Bucket. Das Protobuf-Format ist effizient für das Modelltraining in. SageMaker -
Startet das Modelltraining SageMaker durch Senden einer SageMaker
CreateTrainingJob
Anfrage. SageMaker Speichert die Modellartefakte nach Abschluss des Modelltrainings in einem S3-Bucket.SageMaker nimmt die IAM-Rolle an, die Sie für das Modelltraining angegeben haben, um Aufgaben in Ihrem Namen auszuführen. Beispielsweise wird die Rolle zum Lesen von Trainingsdaten aus einem S3-Bucket und zum Schreiben von Modellartefakten in einen Bucket verwendet.
-
Ein
SageMakerModel
-Objekt wird erstellt und zurückgegeben. Der Konstruktor führt die folgenden Aufgaben aus, die sich auf die Bereitstellung Ihres Modells beziehen. SageMaker-
Sendet eine
CreateModel
Anfrage an. SageMaker -
Sendet eine
CreateEndpointConfig
-Anforderung an SageMaker. -
Sendet eine
CreateEndpoint
Anfrage an SageMaker, die dann die angegebenen Ressourcen startet und das Modell auf ihnen hostet.
-
-
-
Sie können Rückschlüsse aus Ihrem Modell ziehen, das SageMaker mit dem
SageMakerModel.transform
gehostet wird.Stellen Sie einen
DataFrame
mit Merkmalen als Eingabe bereit. Dietransform
-Methode transformiert dies in einenDataFrame
, der Inferenzen enthält. Intern sendet dietransform
Methode eine Anfrage an dieInvokeEndpoint
SageMaker API, um Rückschlüsse zu erhalten. Dietransform
-Methode hängt die Inferenzen an den Eingabe-DataFrame
an.