Übersicht über Machine Learning mit Amazon SageMaker - Amazon SageMaker

Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.

Übersicht über Machine Learning mit Amazon SageMaker

In diesem Abschnitt wird ein typischer Machine Learning (ML)-Workflow beschrieben und die Ausführung dieser Aufgaben mit Amazon zusammengefasst SageMaker.

Beim Machine Learning lernen Sie einen Computer, Vorhersagen oder Inferenzen zu treffen. Zunächst verwenden Sie einen Algorithmus und Beispieldaten, um ein Modell zu schulen. Dann integrieren Sie das Modell in Ihre Anwendung, um Inferenzen in Echtzeit und in großem Umfang zu generieren.

Das folgende Diagramm veranschaulicht den typischen Workflow zum Erstellen eines Machine-Learning-Modells. Es umfasst drei Phasen in einem Zirkelfluss, die wir unten ausführlicher behandeln werden: Beispieldaten generieren, ein Modell trainieren und das Modell einsetzen.

Das Diagramm veranschaulicht, wie die folgenden Aktivitäten in den meisten typischen Szenarien durchgeführt werden:

  1. Generieren von Beispieldaten – Um ein Modell zu trainieren, benötigen Sie Beispieldaten. Der erforderliche Datentyp hängt von dem Geschäftsproblem ab, das Sie mit dem Modell lösen möchten (die Inferenzen, die vom Modell generiert werden sollen). Angenommen, Sie möchten ein Modell erstellen, um eine Zahl aus einem Eingabebild einer handgeschriebenen Ziffer vorherzusagen. Zum Schulen eines solchen Modells brauchen Sie Beispielbilder mit handschriftlichen Zahlen.

    Datenwissenschaftler verbringen häufig Zeit mit der Untersuchung und Vorverarbeitung von Beispieldaten, bevor sie sie für das Modelltraining verwendet werden. Für die Datenvorverarbeitung führen Sie in der Regel die folgenden Schritte aus:

    1. Abrufen der Daten – Möglicherweise haben Sie interne Beispiel-Datenrepositories oder Sie können Datensätze verwenden, die öffentlich verfügbar sind. In der Regel fassen Sie das Dataset bzw. die Datasets in einem einzigen Repository zusammen.

    2. Bereinigen der Daten – Um das Modelltraining zu verbessern, überprüfen Sie die Daten und bereinigen Sie sie nach Bedarf. Wenn Ihre Daten beispielsweise ein country name Attribut mit den Werten United States und habenUS, können Sie die Daten so bearbeiten, dass sie konsistent sind.

    3. Vorbereiten oder Transformieren der Daten – Um die Leistung zu verbessern, können Sie zusätzliche Datentransformationen durchführen. Sie können beispielsweise entscheiden, Attribute zu kombinieren. Wenn Ihr Modell die Bedingungen vorhersagt, die eine Enteisung eines Lebensmittels erfordern, können Sie diese Attribute zu einem neuen Attribut kombinieren, um ein besseres Modell zu erhalten.

    In können SageMakerSie Beispieldaten mithilfe von SageMaker APIs mit dem SageMaker Python SDK in einer integrierten Entwicklungsumgebung (IDE) vorverarbeiten. Mit SDK for Python (Boto3) können Sie Ihre Daten abrufen, untersuchen und für das Modelltraining vorbereiten. Informationen zur Datenvorbereitung, -verarbeitung und Vorbereiten von Daten-transformation finden Sie unter Daten verarbeiten, und Erstellen, Speichern und Freigeben von Funktionen mit Amazon SageMaker Feature Store.

  2. Trainieren eines Modells – Das Modelltraining umfasst sowohl das Training als auch die Bewertung des Modells wie folgt:

    • Trainieren des Modells – Um ein Modell zu trainieren, benötigen Sie einen Algorithmus oder ein vortrainiertes Basismodell. Der auszuwählende Algorithmus hängt von mehreren Faktoren ab. Für eine integrierte Lösung können Sie einen der von SageMaker bereitgestellten Algorithmen verwenden. Eine Liste der von bereitgestellten Algorithmen SageMaker und zugehörige Überlegungen finden Sie unter Verwenden SageMaker von integrierten Amazon-Algorithmen oder vortrainierten Modellen. Eine UI-basierte Schulungslösung, die Algorithmen und Modelle bereitstellt, finden Sie unter SageMaker JumpStart.

      Für eine Schulung werden zudem Ressourcen zur Datenverarbeitung benötigt. Abhängig von der Größe des Schulungsdatasets und davon, wie schnell Sie Ergebnisse brauchen, können Sie entsprechende Ressourcen nutzen – von einer einzigen kleinen Instance für den allgemeinen Einsatz bis zu einem verteilten Cluster aus GPU-Instances. Weitere Informationen finden Sie unter Trainieren eines Modells mit Amazon SageMaker.

    • Auswerten des Modells – Nachdem Sie Ihr Modell trainiert haben, werten Sie es aus, um festzustellen, ob die Genauigkeit der Inferenzen akzeptabel ist. Um Ihr Modell zu trainieren und auszuwerten, können Sie das SageMaker Python SDK verwenden, um Anfragen an das Modell über eine der verfügbaren IDEs zu senden. Weitere Informationen zur Auswertung Ihres Modells finden Sie unter Überwachen Sie die Daten- und Modellqualität.

  3. Bereitstellen des Modells – Sie entwickeln ein Modell traditionell neu, bevor Sie es in Ihre Anwendung integrieren und bereitstellen. Mit SageMaker Hosting-Services können Sie Ihr Modell unabhängig bereitstellen, wodurch es von Ihrem Anwendungscode entkoppelt wird. Weitere Informationen finden Sie unter Modelle für Inference einsetzen.

Machine Learning ist ein fortlaufender Zyklus. Nach der Bereitstellung eines Modells überwachen Sie die Inferenzen, sammeln qualitativ hochwertige Daten und werten das Modell aus, um Abweichungen zu identifizieren. Anschließend erhöhen Sie die Genauigkeit Ihrer Inferenzen, indem Sie Ihre Trainingsdaten aktualisieren, um die neu gesammelten qualitativ hochwertige Daten einzubeziehen. Sobald weitere Beispieldaten verfügbar sind, trainieren Sie Ihr Modell weiter neu, um die Genauigkeit zu erhöhen.