Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.
Funktionsverarbeitung mit SparkML und Scikit-learn
Bevor Sie ein Modell mit Amazon trainieren SageMaker Mit integrierten Algorithmen oder benutzerdefinierten Algorithmen können Sie mit Spark- und scikit-learn-Präprozessoren Ihre Daten transformieren und Funktionen erstellen.
Funktionsverarbeitung mit Spark ML
Sie können Spark ML-Jobs mit ausführenAWSGlue,Ein serverloser ETL (Extrahieren, Transformieren, Laden) -Service von Ihrem SageMaker Notebook Sie können auch eine Verbindung mit vorhandenen EMR-Clustern zum Ausführen von Spark ML-Aufträgen mit Amazon EMR herstellen. Zu tundiesebenötigen SieeinAWS Identity and Access Management(IAM) -Rolle, die die Berechtigung zum Telefonieren von Ihrem SageMaker-Notebook aus erteiltzuAWS Glueaus.
So sehen Sie, welche Python- und Spark-VersionenAWS Glueunterstützt, sieheAWSVersionshinweise zuaus.
Nach der Bearbeitung der Funktionen packen und serialisieren Sie Spark ML-Aufträge mit MLeap in MLeap-Container, die Sie einer Inferenz-Pipeline hinzufügen können. Sie müssen keine extern verwalteten Spark-Cluster verwenden. Diese Vorgehensweise erlaubt das nahtlose Skalieren von einigen Zeilen bis zu Datenmengen im Terabytebereich. Die gleichen Transformationen funktionieren für Schulung und Inferenz, Sie müssen daher die Vorverarbeitungs- und Funktionsbearbeitungskogik nicht duplizieren oder eine einmalige Lösung entwickeln, um die Modelle dauerhaft zu machen. Mit Inferenz-Pipelines müssen Sie keine externe Infrastruktur verwalten, und Sie können Prognosen direkt aus Dateneingaben erstellen.
Wenn Sie einen Spark ML-Job ausführenAWS Glue, einSpark ML-Pipelineist serialisiert inmLeap
Funktionsverarbeitung mit Scikit-Learn
Sie können Scikit-learn-Aufträge ausführen und direkt in Container Amazon SageMaker. Ein Beispiel für Python-Code zum Erstellen eines scikit-learn-Funktionsengineering-Modells, das mit dem Iris-Dataset von Fischer