Umgang mit fehlenden Werten - Amazon Forecast

Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.

Umgang mit fehlenden Werten

Ein häufiges Problem in Zeitreihenprognosedaten sind fehlende Werte. Ihre Daten können aus verschiedenen Gründen fehlende Werte enthalten, darunter Messfehler, Formatierungsprobleme, menschliche Fehler oder fehlende Informationen, die aufgezeichnet werden müssen. Wenn Sie beispielsweise die Produktnachfrage für ein Einzelhandelsgeschäft prognostizieren und ein Artikel ausverkauft oder nicht verfügbar ist, gibt es keine Verkaufsdaten, die aufgezeichnet werden müssen, solange dieser Artikel nicht vorrätig ist. Bei ausreichender Prävalenz können fehlende Werte die Genauigkeit eines Modells erheblich beeinflussen.

Amazon Forecast bietet eine Reihe von Füllmethoden, um fehlende Werte in Ihren Zielzeitreihen und zugehörigen Zeitreihen-Datasets zu verarbeiten. Füllen ist der Prozess des Hinzufügens standardisierter Werte zu fehlenden Einträgen in Ihrem Dataset.

Forecast unterstützt die folgenden Füllmethoden:

  • Middle Filling— Füllt alle fehlenden Werte zwischen dem Start- und Artikelenddatum eines Datensatzes aus.

  • Zurück füllen— Füllt alle fehlenden Werte zwischen dem zuletzt aufgezeichneten Datenpunkt und dem globalen Enddatum eines Datensatzes.

  • Zukünftige Befüllung (nur verwandte Zeitreihen)— Füllt alle fehlenden Werte zwischen dem globalen Enddatum und dem Ende des Prognosehorizonts.

Die folgende Abbildung bietet eine visuelle Darstellung verschiedener Füllmethoden.

Auswählen der Fülllogik

Bei der Auswahl einer Fülllogik sollten Sie überlegen, wie die Logik von Ihrem Modell interpretiert wird. In einem Einzelhandelsszenario unterscheidet sich beispielsweise die Erfassung von 0 Verkäufen eines verfügbaren Artikels von der Erfassung von 0 Verkäufen eines nicht verfügbaren Artikels, da letzteres kein mangelndes Kundeninteresse an dem Artikel impliziert. Aus diesem Grund0Das Ausfüllen der Zielzeitreihe könnte dazu führen, dass die Prognose des Predictors eine zu geringe Tendenz aufweist.NaNDas Ausfüllen ignoriert möglicherweise das tatsächliche Vorkommen von 0 verfügbaren verkauften Artikeln und führt dazu, dass die Predictor eine zu starke Tendenz aufweist.

Die folgenden Zeitreihendiagramme veranschaulichen, wie die Auswahl des falschen Füllwerts die Genauigkeit Ihres Modells erheblich beeinflussen kann. In den Diagrammen A und B wird die Nachfrage für einen Artikel dargestellt, der teilweise nicht vorrätig ist, wobei die schwarzen Linien die tatsächlichen Verkaufsdaten darstellen. Fehlende Werte in A1 werden mit 0 gefüllt, was zu Prognosen mit relativ schwacher Tendenz (dargestellt durch die gepunkteten Linien) in A2 führt. Ebenso werden fehlende Werte in B1 mit NaN gefüllt, was zu Prognosen mit höherer Genauigkeit in B2 führt.

Eine Liste der unterstützten Fülllogik finden Sie im folgenden Abschnitt.

Zielzeitreihen und zugehörige Zeitreihenfülllogik

Füllungen sind bei Zielzeitreihen und zugehörigen Zeitreihen-Datasets möglich. Jeder Dataset-Typ weist unterschiedliche Füllrichtlinien und Einschränkungen auf.

Füllrichtlinien
Dataset-Typ Standardmäßig füllen? Unterstützte Füllmethoden Standardfülllogik Akzeptierte Fülllogik
Zielzeitreihe Ja Mittel- und Rückfüllung 0
  • zero: 0-Füllung.

  • value: eine Ganzzahl oder Gleitkommazahl.

  • nan: keine Zahl.

  • mean: der Mittelwert aus der Datenreihe.

  • median: der Medianwert aus der Datenreihe.

  • min: der Mindestwert aus der Datenreihe.

  • max: der Maximalwert aus der Datenreihe.

Zugehörige Zeitreihen Nein Mittel-, Rück- und zukünftige Füllung Kein Standard
  • zero: 0-Füllung.

  • value: eine Ganzzahl oder eine Gleitkommazahl.

  • mean: der Mittelwert aus der Datenreihe.

  • median: der Medianwert aus der Datenreihe.

  • min: der Mindestwert aus der Datenreihe.

  • max: der Maximalwert aus der Datenreihe.

Wichtig

Für Ziel- und zugehörige Zeitreihen-Datasetsmean,median,min, undmaxwerden basierend auf einem fortlaufenden Fenster der 64 letzten Dateneinträge vor den fehlenden Werten berechnet.

Syntax fehlender Werte

Um fehlende Werte auszufüllen, geben Sie die zu implementierenden Füllarten an, wenn Sie dasCreatePredictorverwenden. Die Fülllogik wird in FeaturizationMethod-Objekten angegeben.

Der folgende Auszug veranschaulicht ein korrekt formatiertes FeaturizationMethod-Objekt für ein Zielzeitreihenattribut und ein zugehöriges Zeitreihenattribut (jeweils target_value und price).

Um eine Füllmethode auf einen spezifischen Wert festzulegen, stellen Sie den Füllparameter aufvalueund definieren Sie den Wert in einem entsprechenden_value-Parameter. Wie unten gezeigt, wird die Verfüllung für die zugehörige Zeitreihe auf den Wert 2 mit den folgenden Punkten festgelegt:"backfill": "value"und"backfill_value":"2"aus.

[ { "AttributeName": "target_value", "FeaturizationPipeline": [ { "FeaturizationMethodName": "filling", "FeaturizationMethodParameters": { "aggregation": "sum", "middlefill": "zero", "backfill": "zero" } } ] }, { "AttributeName": "price", "FeaturizationPipeline": [ { "FeaturizationMethodName": "filling", "FeaturizationMethodParameters": { "middlefill": "median", "backfill": "value", "backfill_value": "2", "futurefill": "max" } } ] } ]