Erweiterte Konfigurationen für die Modellerstellung - Amazon SageMaker

Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.

Erweiterte Konfigurationen für die Modellerstellung

Amazon SageMaker Canvas unterstützt verschiedene erweiterte Einstellungen, die Sie beim Erstellen eines Modells konfigurieren können. Auf der folgenden Seite sind alle erweiterten Einstellungen zusammen mit zusätzlichen Informationen zu ihren Optionen und Konfigurationen aufgeführt.

Anmerkung

Die folgenden erweiterten Einstellungen werden derzeit nur für numerische, kategoriale und Zeitreihenprognosemodelle unterstützt.

Erweiterte Einstellungen für numerische und kategoriale Vorhersagemodelle

Canvas unterstützt die folgenden erweiterten Einstellungen für numerische und kategoriale Vorhersagemodelltypen.

Zielmetrik

Die objektive Metrik ist die Metrik, die Canvas bei der Erstellung Ihres Modells optimieren soll. Wenn Sie keine Metrik auswählen, wählt Canvas standardmäßig eine für Sie aus. Eine Beschreibung der verfügbaren Metriken finden Sie unterReferenz zu Metriken.

Trainingsmethode

Canvas kann die Trainingsmethode automatisch auf der Grundlage der Datensatzgröße auswählen, oder Sie können sie manuell auswählen. Die folgenden Trainingsmethoden stehen Ihnen zur Auswahl:

  • Ensembling — SageMaker nutzt die AutoGluon Bibliothek, um mehrere Basismodelle zu trainieren. Um die beste Kombination für Ihren Datensatz zu finden, führt der Ensemble-Modus 5—10 Versuche mit unterschiedlichen Modell- und Metaparametereinstellungen durch. Anschließend werden diese Modelle mithilfe einer Stacking-Ensemble-Methode kombiniert, um ein optimales Vorhersagemodell zu erstellen. Eine Liste der Algorithmen, die vom Ensemble-Modus für Tabellendaten unterstützt werden, finden Sie im folgenden Abschnitt. Algorithmen

  • Hyperparameter-Optimierung (HPO) — SageMaker Findet die beste Version eines Modells, indem Hyperparameter mithilfe der Bayesschen Optimierung oder der Multi-Fidelity-Optimierung optimiert werden, während Trainingsjobs für Ihren Datensatz ausgeführt werden. HPODer Modus wählt die Algorithmen aus, die für Ihren Datensatz am relevantesten sind, und wählt den besten Bereich von Hyperparametern für die Optimierung Ihrer Modelle aus. Um Ihre Modelle zu optimieren, führt der HPO Modus bis zu 100 Versuche durch (Standard), um die optimalen Hyperparameter-Einstellungen innerhalb des ausgewählten Bereichs zu finden. Wenn Ihr Datensatz weniger als 100 MB groß ist, SageMaker verwendet die Bayessche Optimierung. SageMaker wählt die Multi-Fidelity-Optimierung, wenn Ihr Datensatz größer als 100 MB ist.

    Eine Liste der Algorithmen, die vom HPO Modus für tabellarische Daten unterstützt werden, finden Sie im folgenden Algorithmen Abschnitt.

  • Automatisch — wählt SageMaker automatisch entweder den Ensemblermodus oder den HPO Modus basierend auf Ihrer Datensatzgröße. Wenn Ihr Datensatz größer als 100 MB ist, wird der Modus SageMaker ausgewähltHPO. Andernfalls wählt er den Ensembling-Modus.

Algorithmen

Im Ensembling-Modus unterstützt Canvas die folgenden Algorithmen für maschinelles Lernen:

  • Light GBM — Ein optimiertes Framework, das baumbasierte Algorithmen mit Gradientenverstärkung verwendet. Dieser Algorithmus verwendet Bäume, die eher in die Breite als in die Tiefe wachsen, und ist in hohem Maße auf Geschwindigkeit optimiert.

  • CatBoost— Ein Framework, das baumbasierte Algorithmen mit Gradientenverstärkung verwendet. Es ist für den Umgang mit kategorischen Variablen optimiert.

  • XGBoost— Ein Framework, das baumbasierte Algorithmen mit Gradientenverstärkung verwendet, die eher in die Tiefe als in die Breite wachsen.

  • Random Forest – Ein Baumalgorithmus, der mehrere Entscheidungsbäume für zufällige Teilstichproben der Daten verwendet und ersetzt. Die Bäume werden auf jeder Ebene in optimale Knoten aufgeteilt. Die Entscheidungen der einzelnen Bäume werden zusammen gemittelt, um Überanpassungen zu vermeiden und die Prognosen zu verbessern.

  • Extra Trees – Ein Baumalgorithmus, der für den gesamten Datensatz mehrere Entscheidungsbäume verwendet. Die Bäume werden auf jeder Ebene nach dem Zufallsprinzip aufgeteilt. Die Entscheidungen der einzelnen Bäume werden gemittelt, um Überanpassungen zu vermeiden und die Prognosen zu verbessern. Zusätzliche Bäume sorgen im Vergleich zum Random-Forest-Algorithmus für ein gewisses Maß an Randomisierung.

  • Lineare Modelle – Ein Framework, das die Beziehung zwischen zwei Variablen in den beobachteten Daten mit Hilfe einer linearen Gleichung modelliert.

  • Neural Network Torch – Ein Modell für ein neuronales Netzwerk, das mit Pytorch implementiert wird.

  • Neural Network fast.ai – Ein Modell für ein neuronales Netzwerk, das mit fast.ai implementiert wird.

Im HPOModus unterstützt Canvas die folgenden Algorithmen für maschinelles Lernen:

  • XGBoost— Ein Algorithmus für überwachtes Lernen, der versucht, eine Zielvariable genau vorherzusagen, indem er ein Ensemble von Schätzungen aus einer Reihe einfacherer und schwächerer Modelle kombiniert.

  • Deep-Learning-Algorithmus — Ein mehrschichtiges künstliches neuronales Netzwerk aus Perzeptron (MLP) und Feedforward. Dieser Algorithmus kann Daten verarbeiten, die nicht linear trennbar sind.

Aufteilung der Daten

Sie haben die Möglichkeit, anzugeben, wie Sie Ihren Datensatz zwischen dem Trainingssatz (dem Teil Ihres Datensatzes, der zur Erstellung des Modells verwendet wird) und dem Validierungssatz (der Teil Ihres Datensatzes, der zur Überprüfung der Genauigkeit des Modells verwendet wird) aufteilen möchten. Ein gängiges Teilungsverhältnis ist beispielsweise 80% Training und 20% Validierung, wobei 80% Ihrer Daten für die Modellerstellung verwendet werden, während 20% für die Messung der Modellleistung gespeichert werden. Wenn Sie kein benutzerdefiniertes Verhältnis angeben, teilt Canvas Ihren Datensatz automatisch auf.

Max. Anzahl an Kandidaten

Anmerkung

Diese Funktion ist nur im HPO Trainingsmodus verfügbar.

Sie können die maximale Anzahl von Modellkandidaten angeben, die Canvas beim Erstellen Ihres Modells generiert. Wir empfehlen, die Standardanzahl von Kandidaten zu verwenden, die 100 ist, um möglichst genaue Modelle zu erstellen. Die maximale Anzahl, die Sie angeben können, ist 250. Eine Verringerung der Anzahl der Modellkandidaten kann sich auf die Genauigkeit Ihres Modells auswirken.

Max. Laufzeit des Jobs

Sie können die maximale Joblaufzeit oder die maximale Zeit angeben, die Canvas mit der Erstellung Ihres Modells verbringt. Nach Ablauf der Frist beendet Canvas die Erstellung und wählt den besten Modellkandidaten aus.

Die maximale Zeit, die Sie angeben können, beträgt 720 Stunden. Es wird dringend empfohlen, die maximale Auftragslaufzeit auf mehr als 30 Minuten festzulegen, um sicherzustellen, dass Canvas genügend Zeit hat, Modellkandidaten zu generieren und die Erstellung Ihres Modells abzuschließen.

Erweiterte Modelleinstellungen für Zeitreihenprognosen

Für Zeitreihen-Prognosemodelle unterstützt Canvas die Objective-Metrik, die im vorherigen Abschnitt aufgeführt ist.

Zeitreihen-Prognosemodelle unterstützen auch die folgenden erweiterten Einstellungen:

Auswahl des Algorithmus

Wenn Sie ein Zeitreihen-Prognosemodell erstellen, verwendet Canvas ein Ensemble (oder eine Kombination) aus statistischen und maschinellen Lernalgorithmen, um hochgenaue Zeitreihenprognosen zu erstellen. Standardmäßig wählt Canvas die optimale Kombination aller verfügbaren Algorithmen auf der Grundlage der Zeitreihen in Ihrem Datensatz aus. Sie haben jedoch die Möglichkeit, einen oder mehrere Algorithmen anzugeben, die für Ihr Prognosemodell verwendet werden sollen. In diesem Fall bestimmt Canvas die beste Mischung nur anhand der von Ihnen ausgewählten Algorithmen. Wenn Sie sich nicht sicher sind, welchen Algorithmus Sie für das Training Ihres Modells auswählen sollen, empfehlen wir Ihnen, alle verfügbaren Algorithmen auszuwählen.

Anmerkung

Die Auswahl des Algorithmus wird nur für Standard-Builds unterstützt. Wenn Sie in den erweiterten Einstellungen keine Algorithmen auswählen, wird standardmäßig ein Schnellbuild SageMaker ausgeführt und Modellkandidaten mithilfe eines einzigen baumbasierten Lernalgorithmus trainiert. Weitere Informationen zum Unterschied zwischen Schnellbuilds und Standardbuilds finden Sie unter. Erstellen eines benutzerdefinierten Modells

Canvas unterstützt die folgenden Algorithmen zur Vorhersage von Zeitreihen:

  • Autoregressive Integrated Moving Average (ARIMA) — Ein einfaches stochastisches Zeitreihenmodell, das statistische Analysen verwendet, um die Daten zu interpretieren und future Vorhersagen zu treffen. Dieser Algorithmus ist nützlich für einfache Datensätze mit weniger als 100 Zeitreihen.

  • Convolutional Neural Network — Quantile Regression (CNN-QR) — Ein proprietärer, überwachter Lernalgorithmus, der ein globales Modell aus einer großen Sammlung von Zeitreihen trainiert und mithilfe eines Quantildecoders Vorhersagen trifft. CNN-QR funktioniert am besten mit großen Datensätzen, die Hunderte von Zeitreihen enthalten.

  • DeePar+ — Ein proprietärer, überwachter Lernalgorithmus zur Prognose skalarer Zeitreihen unter Verwendung rekurrenter neuronaler Netze (RNNs), um ein einzelnes Modell gemeinsam über alle Zeitreihen zu trainieren. DeePar+ funktioniert am besten mit großen Datensätzen, die Hunderte von Feature-Zeitreihen enthalten.

  • Nichtparametrische Zeitreihen (NPTS) — Eine skalierbare, probabilistische Basisprognose, die die future Wertverteilung einer bestimmten Zeitreihe anhand von Stichproben aus vergangenen Beobachtungen vorhersagt. NPTSist nützlich, wenn Sie mit spärlichen oder intermittierenden Zeitreihen arbeiten (z. B. bei der Prognose des Bedarfs für einzelne Artikel, bei denen die Zeitreihe viele Nullen oder niedrige Zahlen aufweist).

  • Exponentielle Glättung (ETS) — Eine Prognosemethode, die Prognosen erstellt, bei denen es sich um gewichtete Durchschnittswerte vergangener Beobachtungen handelt, bei denen die Gewichtung älterer Beobachtungen exponentiell abnimmt. Der Algorithmus ist nützlich für einfache Datensätze mit weniger als 100 Zeitreihen und für Datensätze mit saisonalen Mustern.

  • Prophet — Ein additives Regressionsmodell, das am besten mit Zeitreihen mit starken saisonalen Effekten und historischen Daten für mehrere Jahreszeiten funktioniert. Der Algorithmus ist nützlich für Datensätze mit nichtlinearen Wachstumstrends, die sich einem Grenzwert nähern.

Prognosequantile

Trainiert für Zeitreihenprognosen 6 Modellkandidaten anhand Ihrer Zielzeitreihen. SageMaker SageMaker Kombiniert diese Modelle anschließend mithilfe einer Stacking-Ensemble-Methode, um ein optimales Prognosemodell für eine bestimmte Zielmetrik zu erstellen. Jedes Prognosemodell generiert eine probabilistische Prognose, indem es Prognosen mit Quantilen zwischen P1 und P99 erstellt. Mit Hilfe dieser Quantile wird der Prognoseunsicherheit Rechnung getragen. Standardmäßig werden Prognosen für 0,1 (p10), 0,5 () und 0,9 (p50) generiert. p90 Sie können bis zu fünf eigene Quantile zwischen 0,01 (p1) und 0,99 (p99) in Schritten von 0,01 oder höher angeben.