Umgang mit fehlenden Werten - Amazon Forecast

Amazon Forecast ist für Neukunden nicht mehr verfügbar. Bestehende Kunden von Amazon Forecast können den Service weiterhin wie gewohnt nutzen. Erfahren Sie mehr“

Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.

Umgang mit fehlenden Werten

Ein häufiges Problem in Zeitreihenprognosedaten sind fehlende Werte. Ihre Daten können aus verschiedenen Gründen fehlende Werte enthalten, darunter Messfehler, Formatierungsprobleme, menschliche Fehler oder fehlende Informationen, die aufgezeichnet werden müssen. Wenn Sie beispielsweise die Produktnachfrage für ein Einzelhandelsgeschäft prognostizieren und ein Artikel ausverkauft oder nicht verfügbar ist, gibt es keine Verkaufsdaten, die aufgezeichnet werden müssen, solange dieser Artikel nicht vorrätig ist. Bei ausreichender Prävalenz können fehlende Werte erhebliche Auswirkungen auf die Genauigkeit eines Modells haben.

Amazon Forecast bietet eine Reihe von Füllmethoden, um fehlende Werte in Ihren Zielzeitreihen und verwandten Zeitreihendatensätzen zu behandeln. Füllen ist der Prozess des Hinzufügens standardisierter Werte zu fehlenden Einträgen in Ihrem Datensatz.

Forecast unterstützt die folgenden Füllmethoden:

  • Mittlere Füllung — Füllt alle fehlenden Werte zwischen dem Start- und Enddatum des Elements eines Datensatzes aus.

  • Hinterfüllung — Füllt alle fehlenden Werte zwischen dem letzten aufgezeichneten Datenpunkt und dem globalen Enddatum eines Datensatzes aus.

  • Zukünftiges Füllen (nur verwandte Zeitreihen) — Füllt alle fehlenden Werte zwischen dem globalen Enddatum und dem Ende des Prognosehorizonts auf.

Die folgende Abbildung bietet eine visuelle Darstellung verschiedener Füllmethoden.

Timeline showing three items with varying durations and fill methods between global start and end dates.

Auswählen der Fülllogik

Bei der Auswahl einer Fülllogik sollten Sie überlegen, wie die Logik von Ihrem Modell interpretiert wird. In einem Einzelhandelsszenario unterscheidet sich beispielsweise die Erfassung von 0 Verkäufen eines verfügbaren Artikels von der Erfassung von 0 Verkäufen eines nicht verfügbaren Artikels, da letzteres kein mangelndes Kundeninteresse an dem Artikel impliziert. Aus diesem Grund kann das 0 Ausfüllen der Zielzeitreihe dazu führen, dass der Prädiktor bei seinen Prognosen zu wenig voreingenommen ist, wohingegen beim NaN Ausfüllen das tatsächliche Vorkommen, dass 0 verfügbare Artikel verkauft wurden, ignoriert und der Prädiktor übermäßig voreingenommen ist.

Die folgenden Zeitreihendiagramme veranschaulichen, wie die Auswahl des falschen Füllwerts die Genauigkeit Ihres Modells erheblich beeinflussen kann. In den Grafiken A und B wird die Nachfrage nach einem Artikel dargestellt, bei dem es sich um einen Teil handelt out-of-stock, wobei die schwarzen Linien die tatsächlichen Verkaufsdaten darstellen. Fehlende Werte in A1 werden mit 0 gefüllt, was zu Prognosen mit relativ schwacher Tendenz (dargestellt durch die gepunkteten Linien) in A2 führt. Ebenso werden fehlende Werte in B1 mit NaN gefüllt, was zu Prognosen mit höherer Genauigkeit in B2 führt.

Time-series graphs comparing item demand predictions with different filling values for missing data.

Eine Liste der unterstützten Fülllogik finden Sie im folgenden Abschnitt.

Zielzeitreihen und zugehörige Zeitreihenfülllogik

Füllungen sind bei Zielzeitreihen und zugehörigen Zeitreihen-Datasets möglich. Jeder Dataset-Typ weist unterschiedliche Füllrichtlinien und Einschränkungen auf.

Füllrichtlinien
Dataset-Typ Standardmäßig füllen? Unterstützte Füllmethoden Standardfülllogik Akzeptierte Fülllogik
Zielzeitreihe Ja Mittel- und Rückfüllung 0
  • zero – 0-Füllung.

  • value – eine Ganzzahl oder Gleitkommazahl.

  • nan – keine Zahl.

  • mean – der Mittelwert aus der Datenreihe.

  • median – der Medianwert aus der Datenreihe.

  • min – der kleinste Wert aus der Datenreihe.

  • max – der höchste Wert aus der Datenreihe.

Zugehörige Zeitreihen Nein Mittel-, Rück- und zukünftige Füllung Kein Standard
  • zero – 0-Füllung.

  • value – eine Ganzzahl oder eine Gleitkommazahl.

  • mean – der Mittelwert aus der Datenreihe.

  • median – der Medianwert aus der Datenreihe.

  • min – der kleinste Wert aus der Datenreihe.

  • max – der höchste Wert aus der Datenreihe.

Wichtig

Sowohl für Zielzeitreihen als auch für zugehörige Zeitreihendatensätze max werden mean medianmin,, und auf der Grundlage eines fortlaufenden Zeitfensters mit den 64 neuesten Dateneinträgen vor den fehlenden Werten berechnet.

Syntax fehlender Werte

Um fehlende Werte aufzufüllen, geben Sie beim Aufrufen des CreatePredictorVorgangs die Fülltypen an, die implementiert werden sollen. Die Fülllogik ist in FeaturizationMethodObjekten angegeben.

Der folgende Auszug veranschaulicht ein korrekt formatiertes FeaturizationMethod-Objekt für ein Zielzeitreihenattribut und ein zugehöriges Zeitreihenattribut (jeweils target_value und price).

Um eine Füllmethode auf einen bestimmten Wert festzulegen, setzen Sie den Füllparameter auf value und definieren Sie den Wert in einem entsprechenden _value Parameter. Wie unten dargestellt, wird das Auffüllen für die zugehörige Zeitreihe auf den Wert 2 gesetzt, wobei Folgendes gilt: "backfill": "value" und"backfill_value":"2".

[ { "AttributeName": "target_value", "FeaturizationPipeline": [ { "FeaturizationMethodName": "filling", "FeaturizationMethodParameters": { "aggregation": "sum", "middlefill": "zero", "backfill": "zero" } } ] }, { "AttributeName": "price", "FeaturizationPipeline": [ { "FeaturizationMethodName": "filling", "FeaturizationMethodParameters": { "middlefill": "median", "backfill": "value", "backfill_value": "2", "futurefill": "max" } } ] } ]