Formato dei set di dati delle serie temporali e metodi di riempimento dei valori mancanti - Amazon SageMaker

Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.

Formato dei set di dati delle serie temporali e metodi di riempimento dei valori mancanti

I dati delle serie temporali si riferiscono a una raccolta di osservazioni o misurazioni registrate a intervalli di tempo regolari. In questo tipo di dati, ogni osservazione è associata a un timestamp o periodo di tempo specifico, creando una sequenza di punti dati ordinati cronologicamente.

Le colonne specifiche che includi nel set di dati delle serie temporali dipendono dagli obiettivi dell'analisi e dai dati a tua disposizione. Come minimo, i dati delle serie temporali sono composti da una tabella a 3 colonne in cui:

  • Una colonna contiene identificatori univoci assegnati a singoli articoli per fare riferimento al loro valore in un momento specifico.

  • Un'altra colonna rappresenta il point-in-time valore o l'obiettivo per registrare il valore di un determinato elemento in un momento specifico. Dopo che il modello è stato addestrato su tali valori target, questa colonna di destinazione contiene i valori che il modello prevede con una frequenza specificata all'interno di un orizzonte definito.

  • Inoltre, è inclusa una colonna timestamp per registrare la data e l'ora in cui è stato misurato il valore.

  • Le colonne aggiuntive possono contenere altri fattori che possono influenzare le prestazioni previste. Ad esempio, in un set di dati di serie temporali per la vendita al dettaglio in cui l'obiettivo sono le vendite o i ricavi, è possibile includere funzionalità che forniscono informazioni sulle unità vendute, l'ID del prodotto, l'ubicazione del negozio, il conteggio dei clienti, i livelli di inventario, nonché indicatori covariate come dati meteorologici o informazioni demografiche.

Nota

È possibile aggiungere un set di dati progettato con funzionalità di informazioni sulle festività nazionali alle tue serie storiche. Includendo le festività nel modello della serie temporale, è possibile acquisire gli schemi periodici creati dalle festività. In questo modo le previsioni riflettono meglio la stagionalità sottostante dei dati. Per informazioni sui calendari disponibili per Paese, consulta Calendari nazionali delle festività

Formato dei set di dati per la previsione di serie temporali

Autopilot supporta tipi di dati numerici, categorici, di testo e datetime. Il tipo di dati della colonna di destinazione deve essere numerico.

Autopilot supporta dati di serie temporali formattati come file CSV (impostazione predefinita) o come file Parquet.

  • CSV (comma-separated-values) è un formato di file basato su righe che archivia i dati in testo semplice leggibile dall'uomo, una scelta popolare per lo scambio di dati in quanto sono supportati da un'ampia gamma di applicazioni.

  • Parquet è un formato di file basato su colonne in cui i dati vengono archiviati ed elaborati in modo più efficiente rispetto ai formati di file basati su righe. Ciò li rende un'opzione migliore per i problemi relativi ai big data.

Per ulteriori informazioni sui limiti di risorse dei set di dati di serie temporali per la previsione in Autopilot, vedi Limiti delle risorse di previsione delle serie temporali di Amazon SageMaker Autopilot.

Gestione dei valori mancanti

Un problema comune nei dati di previsione delle serie temporali è la presenza di valori mancanti. I dati potrebbero contenere valori mancanti per una serie di motivi, tra cui errori di misurazione, problemi di formattazione, errori umani o mancanza di informazioni da registrare. Ad esempio, se prevedi la domanda dei prodotti per un punto vendita al dettaglio e un articolo è esaurito o non disponibile, non ci saranno dati sulle vendite da registrare mentre l'articolo è esaurito. Se numerosi, i valori mancanti possono influire in modo significativo sulla precisione di un modello.

Autopilot fornisce una serie di metodi di riempimento per gestire i valori mancanti, con approcci distinti per la colonna di destinazione e altre colonne aggiuntive. Il riempimento è il processo di aggiunta di valori standardizzati alle voci mancanti nel set di dati.

Fai riferimento a Come gestire i valori mancanti nei set di dati di input. per impostare il metodo per riempire i valori mancanti nel set di dati delle serie temporali.

Autopilot supporta i seguenti metodi di riempimento:

  • Riempimento frontale: riempie tutti i valori mancanti tra il primo punto dati registrato tra tutti gli elementi e il punto di partenza di ogni elemento (ogni elemento può iniziare in un momento diverso). In questo modo si garantisce che i dati di ciascun elemento siano completi e vadano dal primo punto registrato al rispettivo punto di partenza.

  • Riempimento centrale: riempie tutti i valori mancanti tra le date di inizio e fine degli elementi del set di dati.

  • Riempimento posteriore: riempie tutti i valori mancanti tra l'ultimo punto dati di ciascun elemento (ogni elemento può fermarsi in un momento diverso) e l'ultimo punto dati registrato tra tutti gli elementi.

  • Riempimento futuro: riempie tutti i valori mancanti tra l'ultimo punto dati registrato tra tutti gli elementi e la fine dell'orizzonte di previsione.

L'immagine seguente fornisce una rappresentazione visiva dei diversi metodi di riempimento.

Diagramma che illustra i diversi metodi di riempimento per la previsione delle serie temporali in Amazon Autopilot. SageMaker

Scegliere una logica di riempimento

Quando si sceglie una logica di riempimento, è necessario considerare come la logica verrà interpretata dal modello. Ad esempio, in uno scenario di vendita al dettaglio, la registrazione di 0 vendite di un articolo disponibile è diversa dalla registrazione di 0 vendite di un articolo non disponibile, in quanto quest'ultimo non implica una mancanza di interesse del cliente per l'articolo. Per questo motivo, il riempimento 0 delle serie temporali della colonna di destinazione potrebbe causare una sottovalutazione del predittore nelle sue previsioni, mentre il riempimento NaN potrebbe ignorare le occorrenze effettive di 0 articoli disponibili venduti e causare un eccesso di parte del predittore.

Logica di riempimento

È possibile eseguire il riempimento della colonna di destinazione e di altre colonne numeriche nei set di dati. Le colonne di destinazione hanno linee guida e restrizioni di riempimento diverse rispetto al resto delle colonne numeriche.

Linee guida per il riempimento
Tipo di colonna Riempimento per impostazione predefinita? Metodi di riempimento supportati Logica di riempimento predefinita Logica di riempimento accettata
Colonna di destinazione Riempimento centrale e passato 0
  • zero - Riempimento 0.

  • value - Un numero intero o a virgola mobile.

  • nan - Non un numero.

  • mean - Il valore medio della serie di dati.

  • median - Il valore medio della serie di dati.

  • min - Il valore minimo della serie di dati.

  • max - Il valore massimo della serie di dati.

Altre colonne numeriche No Riempimento medio, passato e futuro Nessun valore predefinito
  • zero - Riempimento 0.

  • value - Un numero intero o a virgola mobile.

  • mean - Il valore medio della serie di dati.

  • median - Il valore medio della serie di dati.

  • min - Il valore minimo della serie di dati.

  • max - Il valore massimo della serie di dati.

Nota

Sia per la colonna di destinazione che per le altre colonne numeriche, mean, median, min e max vengono calcolati sulla base di una finestra mobile dei 64 dati più recenti prima dei valori mancanti.