Erweiterte Einstellungen für numerische und kategoriale Vorhersagemodelle Erweiterte Modelleinstellungen für Zeitreihenprognosen

Erweiterte Konfigurationen für die Modellerstellung

Amazon SageMaker Canvas unterstützt verschiedene erweiterte Einstellungen, die Sie beim Erstellen eines Modells konfigurieren können. Auf der folgenden Seite sind alle erweiterten Einstellungen zusammen mit zusätzlichen Informationen zu ihren Optionen und Konfigurationen aufgeführt.

Anmerkung

Die folgenden erweiterten Einstellungen werden derzeit nur für numerische, kategoriale und Zeitreihenprognosemodelle unterstützt.

Erweiterte Einstellungen für numerische und kategoriale Vorhersagemodelle

Canvas unterstützt die folgenden erweiterten Einstellungen für numerische und kategoriale Vorhersagemodelltypen.

Zielmetrik

Die objektive Metrik ist die Metrik, die Canvas bei der Erstellung Ihres Modells optimieren soll. Wenn Sie keine Metrik auswählen, wählt Canvas standardmäßig eine für Sie aus. Eine Beschreibung der verfügbaren Metriken finden Sie unterReferenz zu Metriken.

Trainingsmethode

Canvas kann die Trainingsmethode automatisch auf der Grundlage der Datensatzgröße auswählen, oder Sie können sie manuell auswählen. Die folgenden Trainingsmethoden stehen Ihnen zur Auswahl:

Ensembling — SageMaker KI nutzt die AutoGluon Bibliothek, um mehrere Basismodelle zu trainieren. Um die beste Kombination für Ihren Datensatz zu finden, führt der Ensemble-Modus 5—10 Versuche mit unterschiedlichen Modell- und Metaparametereinstellungen durch. Anschließend werden diese Modelle mithilfe einer Stacking-Ensemble-Methode kombiniert, um ein optimales Vorhersagemodell zu erstellen. Eine Liste der Algorithmen, die vom Ensemble-Modus für Tabellendaten unterstützt werden, finden Sie im folgenden Abschnitt. Algorithmen
Hyperparameter-Optimierung (HPO) — SageMaker KI findet die beste Version eines Modells, indem sie Hyperparameter mithilfe der Bayesschen Optimierung oder der Multi-Fidelity-Optimierung optimiert, während Trainingsaufgaben an Ihrem Datensatz ausgeführt werden. Der HPO-Modus wählt die Algorithmen aus, die für Ihren Datensatz am ehesten relevant sind, und wählt den optimalen Bereich für die Hyperparameter für die Optimierung Ihrer Modelle aus. Zur Optimierung Ihrer Modelle führt der HPO-Modus bis zu 100 Versuche durch (Standard), um die optimalen Einstellungen für die Hyperparameter innerhalb des ausgewählten Bereichs zu finden. Wenn Ihre Datensatzgröße weniger als 100 MB beträgt, verwendet KI die Bayessche Optimierung. SageMaker SageMaker KI entscheidet sich für die Multi-Fidelity-Optimierung, wenn Ihr Datensatz größer als 100 MB ist.

Eine Liste der Algorithmen, die vom HPO-Modus für Tabellendaten unterstützt werden, finden Sie im folgenden Abschnitt. Algorithmen
Automatisch — SageMaker KI wählt je nach Datensatzgröße automatisch entweder den Ensembling-Modus oder den HPO-Modus. Wenn Ihr Datensatz größer als 100 MB ist, wählt SageMaker AI den HPO-Modus. Andernfalls wählt er den Ensembling-Modus.

Algorithmen

Im Ensembling-Modus unterstützt Canvas die folgenden Algorithmen für maschinelles Lernen:

LightGBM – Ein optimiertes Framework, das Baumalgorithmen mit Gradientenverstärkung nutzt. Dieser Algorithmus verwendet Bäume, die eher in die Breite als in die Tiefe wachsen, und ist in hohem Maße auf Geschwindigkeit optimiert.
CatBoost— Ein Framework, das baumbasierte Algorithmen mit Gradientenverstärkung verwendet. Es ist für den Umgang mit kategorischen Variablen optimiert.
XGBoost— Ein Framework, das baumbasierte Algorithmen mit Gradientenverstärkung verwendet, die eher in die Tiefe als in die Breite wachsen.
Random Forest – Ein Baumalgorithmus, der mehrere Entscheidungsbäume für zufällige Teilstichproben der Daten verwendet und ersetzt. Die Bäume werden auf jeder Ebene in optimale Knoten aufgeteilt. Die Entscheidungen der einzelnen Bäume werden zusammen gemittelt, um Überanpassungen zu vermeiden und die Prognosen zu verbessern.
Extra Trees – Ein Baumalgorithmus, der für den gesamten Datensatz mehrere Entscheidungsbäume verwendet. Die Bäume werden auf jeder Ebene nach dem Zufallsprinzip aufgeteilt. Die Entscheidungen der einzelnen Bäume werden gemittelt, um Überanpassungen zu vermeiden und die Prognosen zu verbessern. Zusätzliche Bäume sorgen im Vergleich zum Random-Forest-Algorithmus für ein gewisses Maß an Randomisierung.
Lineare Modelle – Ein Framework, das die Beziehung zwischen zwei Variablen in den beobachteten Daten mit Hilfe einer linearen Gleichung modelliert.
Neural Network Torch – Ein Modell für ein neuronales Netzwerk, das mit Pytorch implementiert wird.
Neural Network fast.ai – Ein Modell für ein neuronales Netzwerk, das mit fast.ai implementiert wird.

Im HPO-Modus unterstützt Canvas die folgenden Algorithmen für maschinelles Lernen:

XGBoost— Ein Algorithmus für überwachtes Lernen, der versucht, eine Zielvariable genau vorherzusagen, indem er ein Ensemble von Schätzungen aus einer Reihe einfacherer und schwächerer Modelle kombiniert.
Deep-Learning-Algorithmus – Ein künstliches neuronales Netzwerk mit mehrschichtigem Perceptron (MLP) und Feedforward. Dieser Algorithmus kann Daten verarbeiten, die nicht linear trennbar sind.

Aufteilung der Daten

Sie haben die Möglichkeit, anzugeben, wie Sie Ihren Datensatz zwischen dem Trainingssatz (dem Teil Ihres Datensatzes, der zur Erstellung des Modells verwendet wird) und dem Validierungssatz (der Teil Ihres Datensatzes, der zur Überprüfung der Genauigkeit des Modells verwendet wird) aufteilen möchten. Ein gängiges Teilungsverhältnis ist beispielsweise 80% Training und 20% Validierung, wobei 80% Ihrer Daten für die Modellerstellung verwendet werden, während 20% für die Messung der Modellleistung gespeichert werden. Wenn Sie kein benutzerdefiniertes Verhältnis angeben, teilt Canvas Ihren Datensatz automatisch auf.

Max. Anzahl an Kandidaten

Anmerkung

Diese Funktion ist nur im HPO-Trainingsmodus verfügbar.

Sie können die maximale Anzahl von Modellkandidaten angeben, die Canvas beim Erstellen Ihres Modells generiert. Wir empfehlen, dass Sie die Standardanzahl von Kandidaten verwenden, die 100 ist, um möglichst genaue Modelle zu erstellen. Die maximale Anzahl, die Sie angeben können, ist 250. Eine Verringerung der Anzahl der Modellkandidaten kann sich auf die Genauigkeit Ihres Modells auswirken.

Max. Laufzeit des Jobs

Sie können die maximale Joblaufzeit oder die maximale Zeit angeben, die Canvas mit der Erstellung Ihres Modells verbringt. Nach Ablauf der Frist beendet Canvas die Erstellung und wählt den besten Modellkandidaten aus.

Die maximale Zeit, die Sie angeben können, beträgt 720 Stunden. Es wird dringend empfohlen, die maximale Auftragslaufzeit auf mehr als 30 Minuten festzulegen, um sicherzustellen, dass Canvas genügend Zeit hat, Modellkandidaten zu generieren und die Erstellung Ihres Modells abzuschließen.

Erweiterte Modelleinstellungen für Zeitreihenprognosen

Für Zeitreihen-Prognosemodelle unterstützt Canvas die Objective-Metrik, die im vorherigen Abschnitt aufgeführt ist.

Zeitreihen-Prognosemodelle unterstützen auch die folgenden erweiterten Einstellungen:

Auswahl des Algorithmus

Wenn Sie ein Zeitreihen-Prognosemodell erstellen, verwendet Canvas ein Ensemble (oder eine Kombination) aus statistischen und maschinellen Lernalgorithmen, um hochgenaue Zeitreihenprognosen zu erstellen. Standardmäßig wählt Canvas die optimale Kombination aller verfügbaren Algorithmen auf der Grundlage der Zeitreihen in Ihrem Datensatz aus. Sie haben jedoch die Möglichkeit, einen oder mehrere Algorithmen anzugeben, die für Ihr Prognosemodell verwendet werden sollen. In diesem Fall bestimmt Canvas die beste Mischung nur anhand der von Ihnen ausgewählten Algorithmen. Wenn Sie sich nicht sicher sind, welchen Algorithmus Sie für das Training Ihres Modells auswählen sollen, empfehlen wir Ihnen, alle verfügbaren Algorithmen auszuwählen.

Anmerkung

Die Auswahl des Algorithmus wird nur für Standard-Builds unterstützt. Wenn Sie in den erweiterten Einstellungen keine Algorithmen auswählen, führt SageMaker KI standardmäßig einen Schnellaufbau durch und trainiert Modellkandidaten mithilfe eines einzigen baumbasierten Lernalgorithmus. Weitere Informationen zum Unterschied zwischen Schnell-Builds und Standard-Builds finden Sie unter. So funktionieren benutzerdefinierte Modelle

Canvas unterstützt die folgenden Algorithmen für Zeitreihenprognosen:

Autoregressive Integrated Moving Average (ARIMA) — Ein einfaches stochastisches Zeitreihenmodell, das statistische Analysen verwendet, um die Daten zu interpretieren und future Vorhersagen zu treffen. Dieser Algorithmus ist nützlich für einfache Datensätze mit weniger als 100 Zeitreihen.
Convolutional Neural Network — Quantile Regression (CNN-QR) — Ein proprietärer, überwachter Lernalgorithmus, der ein globales Modell aus einer großen Sammlung von Zeitreihen trainiert und mithilfe eines Quantildecoders Vorhersagen trifft. CNN-QR funktioniert am besten mit großen Datensätzen, die Hunderte von Zeitreihen enthalten.
DeePar+ — Ein proprietärer, überwachter Lernalgorithmus zur Prognose skalarer Zeitreihen unter Verwendung rekurrenter neuronaler Netze (RNNs), um ein einzelnes Modell gemeinsam über alle Zeitreihen zu trainieren. DeePar+ funktioniert am besten mit großen Datensätzen, die Hunderte von Feature-Zeitreihen enthalten.
Nichtparametrische Zeitreihen (NPTS) — Eine skalierbare, probabilistische Basisprognose, die die future Wertverteilung einer bestimmten Zeitreihe anhand von Stichproben aus vergangenen Beobachtungen vorhersagt. NPTS ist nützlich, wenn Sie mit spärlichen oder intermittierenden Zeitreihen arbeiten (z. B. bei der Prognose der Nachfrage nach einzelnen Artikeln, bei denen die Zeitreihe viele Nullen oder niedrige Zahlen enthält).
Exponentielle Glättung (ETS) — Eine Prognosemethode, mit der Prognosen erstellt werden, bei denen es sich um gewichtete Durchschnittswerte vergangener Beobachtungen handelt, bei denen die Gewichtung älterer Beobachtungen exponentiell abnimmt. Der Algorithmus ist nützlich für einfache Datensätze mit weniger als 100 Zeitreihen und für Datensätze mit saisonalen Mustern.
Prophet — Ein additives Regressionsmodell, das am besten mit Zeitreihen mit starken saisonalen Effekten und historischen Daten für mehrere Jahreszeiten funktioniert. Der Algorithmus ist nützlich für Datensätze mit nichtlinearen Wachstumstrends, die sich einem Grenzwert nähern.

Prognosequantile

Für die Prognose von Zeitreihen trainiert SageMaker KI 6 Modellkandidaten anhand Ihrer Zielzeitreihen. Anschließend kombiniert SageMaker KI diese Modelle mithilfe einer Stacking-Ensemble-Methode, um ein optimales Prognosemodell für eine bestimmte Zielmetrik zu erstellen. Jedes Prognosemodell generiert eine probabilistische Prognose, indem es Prognosen mit Quantilen zwischen P1 und P99 erstellt. Mit Hilfe dieser Quantile wird der Prognoseunsicherheit Rechnung getragen. Standardmäßig werden Prognosen für 0,1 (p10), 0,5 () und 0,9 (p50) generiert. p90 Sie können bis zu fünf eigene Quantile zwischen 0,01 (p1) und 0,99 (p99) in Schritten von 0,01 oder höher angeben.

Warnung JavaScript ist in Ihrem Browser nicht verfügbar oder deaktiviert.

Zur Nutzung der AWS-Dokumentation muss JavaScript aktiviert sein. Weitere Informationen finden auf den Hilfe-Seiten Ihres Browsers.

Dokumentkonventionen

Ein Modell erstellen

Bearbeiten Sie einen Bilddatensatz