Datensatzformat Fehlende Werte behandeln

Format von Zeitreihen-Datensätzen und Methoden zum Auffüllen fehlender Werte

Zeitreihendaten beziehen sich auf eine Sammlung von Beobachtungen oder Messungen, die in regelmäßigen Zeitintervallen aufgezeichnet werden. Bei solchen Daten ist jede Beobachtung einem bestimmten Zeitstempel oder Zeitraum zugeordnet. So entsteht eine chronologisch geordnete Abfolge von Datenpunkten.

Die Spalten, die Sie jeweils in Ihren Zeitreihendatensatz aufnehmen, hängen von den Zielen Ihrer Analyse und den Ihnen zur Verfügung stehenden Daten ab. Die Zeitreihendaten bestehen mindestens aus einer dreispaltigen Tabelle, in der:

Eine Spalte eindeutige Kennungen enthält, die einzelnen Elementen zugewiesen werden, um auf deren Wert zu einem bestimmten Zeitpunkt zu verweisen.
Eine weitere Spalte stellt den point-in-time Wert oder das Ziel dar, um den Wert eines bestimmten Elements zu einem bestimmten Zeitpunkt zu protokollieren. Sobald das Modell anhand dieser Zielwerte trainiert wurde, enthält diese Zielspalte die Werte, die das Modell mit einer bestimmten Frequenz innerhalb eines definierten Horizonts vorhersagt.
Außerdem ist eine Spalte mit Zeitstempeln enthalten, in der Datum und Uhrzeit der Messung des jeweiligen Wertes aufgezeichnet werden.
Weitere Spalten können zusätzliche Faktoren enthalten, die Einfluss auf die Prognoseleistung haben können. Sie könnten z. B. in einem Zeitreihendatensatz für den Einzelhandel, bei dem das Ziel der Umsatz oder Erlös ist, Funktionen einbeziehen, die Informationen über verkaufte Einheiten, Produkt-ID, Filialstandort, Kundenzahl, Warenbestand sowie kovariante Indikatoren wie Wetterdaten oder demografische Informationen bereitstellen.

Anmerkung

Sie können einen anhand von Features erstellten Datensatz mit Informationen zu den nationalen Feiertagen in Ihre Zeitreihe aufnehmen. Indem Sie Feiertage in Ihr Zeitreihenmodell einbeziehen, können Sie die periodischen Muster erfassen, die durch Feiertage entstehen. Auf diese Weise können Ihre Prognosen die zugrunde liegende Saisonalität Ihrer Daten besser wiedergeben. Informationen zu den für jedes Land verfügbaren Kalendern finden Sie unter Nationale Feiertagskalender

Datensatzformat für Zeitreihenprognosen

Autopilot unterstützt Daten vom Typ Numerisch, Kategorial, Text und Datetime. Die Daten in der Zielspalte müssen vom Typ Numerisch sein.

Autopilot unterstützt Zeitreihendaten, die als CSV (Standard-) Dateien oder als Parquet-Dateien formatiert sind.

CSV(comma-separated-values) ist ein zeilenbasiertes Dateiformat, das Daten in für Menschen lesbarem Klartext speichert. Dies ist eine beliebte Wahl für den Datenaustausch, da sie von einer Vielzahl von Anwendungen unterstützt werden.
Parquet ist ein Dateiformat auf Spaltenbasis, bei dem die Daten effizienter gespeichert und verarbeitet werden als bei einem Dateiformat auf Zeilenbasis. Dies macht sie zu einer besseren Option für Big-Data-Probleme.

Weitere Informationen zu den Ressourcenbeschränkungen für Zeitreihen-Datensätze für Prognosen in Autopilot finden Sie unter Ressourcenlimits für Zeitreihenprognosen von Amazon SageMaker Autopilot.

Fehlende Werte behandeln

Ein häufiges Problem in Zeitreihenprognosedaten sind fehlende Werte. Ihre Daten können aus verschiedenen Gründen fehlende Werte enthalten, darunter Messfehler, Formatierungsprobleme, menschliche Fehler oder fehlende Informationen, die aufgezeichnet werden müssen. Wenn Sie z. B. die Produktnachfrage für ein Einzelhandelsgeschäft prognostizieren wollen und ein Artikel ausverkauft oder nicht verfügbar ist, könnten keine Verkaufsdaten aufgezeichnet werden, solange dieser Artikel nicht vorrätig ist. Bei ausreichender Prävalenz können fehlende Werte erhebliche Auswirkungen auf die Genauigkeit eines Modells haben.

Autopilot bietet eine Reihe von Auffüllmethoden für den Umgang mit fehlenden Werten. Dabei sind für die Zielspalte und andere zusätzliche Spalten unterschiedliche Ansätze vorgesehen. Füllen ist der Prozess des Hinzufügens standardisierter Werte zu fehlenden Einträgen in Ihrem Datensatz.

Weitere Informationen dazu, wie die Methode zum Auffüllen fehlender Werte in Ihrem Zeitreihendatensatz eingestellt wird, finden Sie unter So gehen Sie mit fehlenden Werten in den Eingabedatensätzen um.

Autopilot unterstützt die folgenden Auffüllmethoden:

Auffüllen von vorne: Damit werden alle fehlenden Werte zwischen dem frühesten aufgezeichneten Datenpunkt unter allen Elementen und dem Anfangspunkt jedes Elements aufgefüllt (jedes Element kann zu einem anderen Zeitpunkt beginnen). Hiermit wird sichergestellt, dass die Daten für jedes Element vollständig sind und dass sie sich vom frühesten aufgezeichneten Datenpunkt bis zum jeweiligen Anfangspunkt erstrecken.
Mittlere Füllung: Damit werden alle fehlenden Werte zwischen dem Anfangs- und Enddatum der Elemente im Datensatz aufgefüllt.
Auffüllen von hinten: Damit werden alle fehlenden Werte zwischen dem letzten Datenpunkt jedes Elements und dem letzten aufgezeichneten Datenpunkt unter allen Elementen aufgefüllt (jedes Element kann zu einem anderen Zeitpunkt enden).
Künftiges Auffüllen: Damit werden alle fehlenden Werte zwischen dem letzten aufgezeichneten Datenpunkt unter allen Elementen und dem Ende des Prognosehorizonts aufgefüllt.

Die folgende Abbildung gibt eine visuelle Darstellung der verschiedenen Auffüllmethoden.

Die verschiedenen Füllmethoden für Zeitreihenprognosen in Amazon SageMaker Autopilot.

Auswahl einer Fülllogik

Bei der Auswahl einer Fülllogik sollten Sie überlegen, wie die Logik von Ihrem Modell interpretiert wird. In einem Einzelhandelsszenario unterscheidet sich beispielsweise die Erfassung von 0 Verkäufen eines verfügbaren Artikels von der Erfassung von 0 Verkäufen eines nicht verfügbaren Artikels, da letzteres kein mangelndes Kundeninteresse an dem Artikel impliziert. Aus diesem Grund könnte das 0 Auffüllen der Zeitreihe dazu führen, dass die Prognosen durch den Prognoseparameter eine zu geringe Tendenz aufweist. Dagegen kann das Auffüllen mit NaN dazu führen, dass das tatsächliche Auftreten von 0 verfügbaren verkauften Elementen ignoriert wird und der Prognoseparameter eine zu starke Tendenz aufweist.

Fülllogik

Sie können die Zielspalte und andere numerische Spalten in Ihren Datensätzen auffüllen. Zum Auffüllen von Zielspalten gelten andere Richtlinien und Einschränkungen für die übrigen numerischen Spalten.

Füllrichtlinien

Spaltentyp	Standardmäßig füllen?	Unterstützte Füllmethoden	Standardfülllogik	Akzeptierte Fülllogik
Zielspalte	Ja	Mittel- und Rückfüllung	0	`zero` – 0-Füllung. `value` – eine Ganzzahl oder Gleitkommazahl. `nan` – keine Zahl. `mean` – der Mittelwert aus der Datenreihe. `median` – der Medianwert aus der Datenreihe. `min` – der kleinste Wert aus der Datenreihe. `max` – der höchste Wert aus der Datenreihe.
Sonstige numerische Spalten	Nein	Mittel-, Rück- und zukünftige Füllung	Kein Standard	`zero` – 0-Füllung. `value` – eine Ganzzahl oder eine Gleitkommazahl. `mean` – der Mittelwert aus der Datenreihe. `median` – der Medianwert aus der Datenreihe. `min` – der kleinste Wert aus der Datenreihe. `max` – der höchste Wert aus der Datenreihe.

Anmerkung

Sowohl für die Zielspalte als auch für sonstige numerischen Spalten werden mean, median, min, und max anhand eines gleitenden Fensters mit den 64 jüngsten Dateneinträgen vor den fehlenden Werten berechnet.

Warnung JavaScript ist in Ihrem Browser nicht verfügbar oder deaktiviert.

Zur Nutzung der AWS-Dokumentation muss JavaScript aktiviert sein. Weitere Informationen finden auf den Hilfe-Seiten Ihres Browsers.

Dokumentkonventionen

Erstellen Sie einen Job für Zeitreihenprognosen mit AutoML API

Nationale Feiertagskalender