Funktionsverarbeitung mit SparkML und Scikit-learn - Amazon SageMaker

Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.

Funktionsverarbeitung mit SparkML und Scikit-learn

Bevor Sie ein Modell mit Amazon trainieren SageMaker Mit integrierten Algorithmen oder benutzerdefinierten Algorithmen können Sie mit Spark- und scikit-learn-Präprozessoren Ihre Daten transformieren und Funktionen erstellen.

Funktionsverarbeitung mit Spark ML

Sie können Spark ML-Jobs mit ausführenAWSGlue,Ein serverloser ETL (Extrahieren, Transformieren, Laden) -Service von Ihrem SageMaker Notebook Sie können auch eine Verbindung mit vorhandenen EMR-Clustern zum Ausführen von Spark ML-Aufträgen mit Amazon EMR herstellen. Zu tundiesebenötigen SieeinAWS Identity and Access Management(IAM) -Rolle, die die Berechtigung zum Telefonieren von Ihrem SageMaker-Notebook aus erteiltzuAWS Glueaus.

Anmerkung

So sehen Sie, welche Python- und Spark-VersionenAWS Glueunterstützt, sieheAWSVersionshinweise zuaus.

Nach der Bearbeitung der Funktionen packen und serialisieren Sie Spark ML-Aufträge mit MLeap in MLeap-Container, die Sie einer Inferenz-Pipeline hinzufügen können. Sie müssen keine extern verwalteten Spark-Cluster verwenden. Diese Vorgehensweise erlaubt das nahtlose Skalieren von einigen Zeilen bis zu Datenmengen im Terabytebereich. Die gleichen Transformationen funktionieren für Schulung und Inferenz, Sie müssen daher die Vorverarbeitungs- und Funktionsbearbeitungskogik nicht duplizieren oder eine einmalige Lösung entwickeln, um die Modelle dauerhaft zu machen. Mit Inferenz-Pipelines müssen Sie keine externe Infrastruktur verwalten, und Sie können Prognosen direkt aus Dateneingaben erstellen.

Wenn Sie einen Spark ML-Job ausführenAWS Glue, einSpark ML-Pipelineist serialisiert inmLeap. Dann können Sie den Job mit demServing-Container SparkML Modellin einem SageMaker Inferenz-Pipeline.mLeapist ein Serialisierungsformat und eine Ausführungs-Engine für ML-Pipelines. Es unterstützt Spark, SciKit-Learn und TensorFlow Für das Training von Pipelines sowie den Export der Pipelines in eine serialisierte Pipeline, die als MLeap Bundle bezeichnet wird. Bundles können für die Stapelmodusbewertung zurück in Spark oder für Echtzeit-API-Services in die MLeap-Laufzeit deserialisiert werden.

Funktionsverarbeitung mit Scikit-Learn

Sie können Scikit-learn-Aufträge ausführen und direkt in Container Amazon SageMaker. Ein Beispiel für Python-Code zum Erstellen eines scikit-learn-Funktionsengineering-Modells, das mit dem Iris-Dataset von Fischer geschult wird und die Iris-Art basierend auf morphologischen Messungen voraussagt, finden Sie unter IRIS-Training und -Voraussage mit SageMaker Scikit-learn.