Gestione dei valori mancanti - Amazon Forecast

Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.

Gestione dei valori mancanti

Un problema comune nei dati di previsione delle serie temporali è la presenza di valori mancanti. I dati potrebbero contenere valori mancanti per una serie di motivi, tra cui errori di misurazione, problemi di formattazione, errori umani o mancanza di informazioni da registrare. Ad esempio, se prevedi la domanda dei prodotti per un punto vendita al dettaglio e un articolo è esaurito o non disponibile, non ci saranno dati sulle vendite da registrare mentre l'articolo è esaurito. Se numerosi, i valori mancanti possono influire in modo significativo sulla precisione di un modello.

Amazon Forecast offre diversi metodi di compilazione per gestire i valori mancanti nelle serie temporali di destinazione e nei relativi set di dati delle serie temporali. Il riempimento è il processo di aggiunta di valori standardizzati alle voci mancanti nel set di dati.

Forecast supporta i seguenti metodi di riempimento:

  • Riempimento centrale: riempie i valori mancanti tra la data di inizio dell'elemento e la data di fine dell'elemento di un set di dati.

  • Riempimento a ritroso: riempie tutti i valori mancanti tra l'ultimo punto dati registrato e la data di fine globale di un set di dati.

  • Riempimento futuro (solo serie temporali correlate): riempie tutti i valori mancanti tra la data di fine globale e la fine dell'orizzonte di previsione.

L'immagine seguente fornisce una rappresentazione visiva dei diversi metodi di riempimento.

Scelta della logica di riempimento

Quando si sceglie una logica di riempimento, è necessario considerare come la logica verrà interpretata dal modello. Ad esempio, in uno scenario di vendita al dettaglio, la registrazione di 0 vendite di un articolo disponibile è diversa dalla registrazione di 0 vendite di un articolo non disponibile, in quanto quest'ultimo non implica una mancanza di interesse del cliente per l'articolo. Per questo motivo, la 0 compilazione della serie temporale prevista potrebbe far sì che il predittore risulti poco distorto nelle sue previsioni, mentre la NaN compilazione potrebbe ignorare le occorrenze effettive di 0 articoli disponibili venduti e rendere il predittore eccessivamente distorto.

I seguenti grafici delle serie temporali illustrano come la scelta di un valore di riempimento errato possa influire in modo significativo sulla precisione del modello. I grafici A e B tracciano la domanda di un articolo che lo è parzialmente, con le linee nere che rappresentano i dati di vendita effettivi. out-of-stock I valori mancanti in A1 sono riempiti con 0, portando a previsioni relativamente sottovalutate (rappresentate dalle linee tratteggiate) in A2. Allo stesso modo, i valori mancanti in B1 sono riempiti con NaN, il che porta a previsioni che sono più esatte in B2.

Per l'elenco delle logiche di riempimento supportate, consulta la sezione seguente.

Logica di riempimento delle serie temporali di destinazione e delle serie temporali correlate

Puoi eseguire il riempimento sia sulle serie temporali di destinazione che sui set di dati relativi alle serie temporali. Ogni tipo di set di dati ha linee guida e restrizioni di riempimento diverse.

Linee guida per il riempimento
Tipo di set di dati Riempimento per impostazione predefinita? Metodi di riempimento supportati Logica di riempimento predefinita Logica di riempimento accettata
Serie temporali di destinazione Riempimento centrale e passato 0
  • zero - Riempimento 0.

  • value - Un numero intero o a virgola mobile.

  • nan - Non un numero.

  • mean - Il valore medio della serie di dati.

  • median - Il valore medio della serie di dati.

  • min - Il valore minimo della serie di dati.

  • max - Il valore massimo della serie di dati.

Serie temporali correlate No Riempimento medio, passato e futuro Nessun valore predefinito
  • zero - Riempimento 0.

  • value - Un numero intero o a virgola mobile.

  • mean - Il valore medio della serie di dati.

  • median - Il valore medio della serie di dati.

  • min - Il valore minimo della serie di dati.

  • max - Il valore massimo della serie di dati.

Importante

Sia per i set di dati di destinazione che per quelli relativi alle serie temporali meanmedian,,min, e max vengono calcolati sulla base di una finestra scorrevole contenente le 64 immissioni di dati più recenti prima dei valori mancanti.

Sintassi del valore mancante

Per eseguire il riempimento dei valori mancanti, specificate i tipi di riempimento da implementare quando chiamate l'CreatePredictoroperazione. La logica di riempimento è specificata negli FeaturizationMethodoggetti.

Nell'estratto seguente viene illustrato un oggetto FeaturizationMethod formattato correttamente per un attributo di serie temporale di destinazione e il relativo attributo di serie temporali (target_value e price rispettivamente).

Per impostare un metodo di riempimento su un valore specifico, impostate il parametro di riempimento su value e definite il valore in un _value parametro corrispondente. Come illustrato di seguito, il backfilling per le serie temporali correlate è impostato su un valore di 2 con quanto segue: "backfill": "value" e"backfill_value":"2".

[ { "AttributeName": "target_value", "FeaturizationPipeline": [ { "FeaturizationMethodName": "filling", "FeaturizationMethodParameters": { "aggregation": "sum", "middlefill": "zero", "backfill": "zero" } } ] }, { "AttributeName": "price", "FeaturizationPipeline": [ { "FeaturizationMethodName": "filling", "FeaturizationMethodParameters": { "middlefill": "median", "backfill": "value", "backfill_value": "2", "futurefill": "max" } } ] } ]