Format des jeux de données de séries temporelles et méthodes de remplissage des valeurs manquantes - Amazon SageMaker

Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.

Format des jeux de données de séries temporelles et méthodes de remplissage des valeurs manquantes

Les données de séries temporelles font référence à un ensemble d'observations ou de mesures enregistrées à intervalles réguliers. Dans ce type de données, chaque observation est associée à un horodatage ou à une période spécifique, ce qui crée une séquence de points de données classés par ordre chronologique.

Les colonnes spécifiques que vous incluez dans votre jeu de données de séries temporelles dépendent des objectifs de votre analyse et des données dont vous disposez. Au minimum, les données de séries temporelles sont composées d'une table à 3 colonnes dans laquelle :

  • Une colonne contient des identifiants uniques attribués à des articles individuels pour faire référence à leur valeur à un moment précis.

  • Une autre colonne représente la point-in-time valeur ou la cible pour enregistrer la valeur d'un élément donné à un moment précis. Une fois que le modèle a été entraîné sur ces valeurs cibles, cette colonne cible contient les valeurs que le modèle prédit à une fréquence spécifiée dans un horizon défini.

  • Et une colonne d'horodatage est incluse pour enregistrer la date et l'heure de la mesure de la valeur.

  • Des colonnes supplémentaires peuvent contenir d'autres facteurs susceptibles d'influer sur les performances de prévision. Par exemple, dans un jeu de données de séries temporelles de commerce de détail dont la cible correspond aux ventes ou au chiffre d'affaires, vous pouvez inclure des fonctionnalités fournissant des informations sur les unités vendues, l'identifiant du produit, l'emplacement du magasin, le nombre de clients, les niveaux de stock, ainsi que des indicateurs de covariation, tels que des données météorologiques ou des informations démographiques.

Note

Vous pouvez ajouter à vos séries temporelles un jeu de données obtenu par ingénierie des fonctionnalités d'informations sur les fêtes nationales. En incluant les jours fériés dans votre modèle de séries temporelles, vous pouvez capturer les schémas périodiques créés par les jours fériés. Cela permet à vos prévisions de mieux refléter la saisonnalité sous-jacente de vos données. Pour en savoir plus sur les calendriers disponibles par pays, consultez Calendriers des fêtes nationales

Format des jeux de données pour les prévisions de séries temporelles

Autopilot prend en charge les types de données numériques, catégoriels, textuels et datetime. Le type de données de la colonne cible doit être numérique.

Autopilot prend en charge les données de séries temporelles sous forme de fichiers CSV (par défaut) ou de fichiers Parquet.

  • CSV (valeurs séparées par des virgules) est un format de fichier basé sur les lignes qui stocke les données en texte brut lisible par l'utilisateur, un choix populaire pour l'échange de données, car elles sont prises en charge par un large éventail d'applications.

  • Parquet est un format de fichier basé sur les colonnes dans lequel les données sont stockées et traitées plus efficacement que les formats de fichiers basés sur les lignes. Cela en fait une meilleure option pour les problèmes de big data.

Pour plus d'informations sur les limites de ressources applicables aux jeux de données de séries temporelles pour la prévision dans Autopilot, consultez Limites des ressources de prévision des séries chronologiques Amazon SageMaker Autopilot.

Gestion des valeurs manquantes

Un problème courant dans les données de prévision chronologiques est la présence de valeurs manquantes. Vos données peuvent contenir des valeurs manquantes pour un certain nombre de raisons, notamment des échecs de mesure, des problèmes de formatage, des erreurs humaines ou un manque d'informations à enregistrer. Par exemple, si vous prévoyez la demande d'un produit pour un magasin de vente au détail et qu'un article est épuisé ou indisponible, il n'y aura pas de données de vente à enregistrer tant que cet article sera en rupture de stock. Si elles sont suffisamment importantes, les valeurs manquantes peuvent avoir un impact significatif sur la précision d'un modèle.

Autopilot propose un certain nombre de méthodes de remplissage pour gérer les valeurs manquantes, avec des approches distinctes pour la colonne cible et d'autres colonnes supplémentaires. Le remplissage consiste à ajouter des valeurs normalisées aux entrées manquantes dans votre ensemble de données.

Reportez-vous à Comment gérer les valeurs manquantes de vos jeux de données sources. pour découvrir comment définir la méthode de remplissage des valeurs manquantes dans votre jeu de données de séries temporelles.

Autopilot prend en charge les méthodes de remplissage suivantes :

  • Remplissage avant : remplit toutes les valeurs manquantes entre le point de données enregistré le plus tôt parmi tous les éléments et le point de départ de chaque élément (chaque élément peut commencer à un moment différent). Cela garantit que les données de chaque élément sont complètes et s'étendent du point de données enregistré le plus tôt à son point de départ respectif.

  • Remplissage intermédiaire : remplit toutes les valeurs manquantes entre la date de début et la date de fin des éléments figurant dans le jeu de données.

  • Remplissage arrière : remplit toutes les valeurs manquantes entre le dernier point de données de chaque élément (chaque élément peut s'arrêter à un moment différent) et le dernier point de données enregistré parmi tous les éléments.

  • Remplissage futur : remplit toutes les valeurs manquantes entre le dernier point de données enregistré parmi tous les éléments et la fin de l'horizon de prévision.

L'image suivante fournit une représentation visuelle des différentes méthodes de remplissage.

Schéma illustrant les différentes méthodes de remplissage pour les prévisions de séries chronologiques dans Amazon SageMaker Autopilot.

Choix d'une logique de remplissage

Lorsque vous choisissez une logique de remplissage, vous devez prendre en considération la manière dont la logique sera interprétée par votre modèle. Par exemple, dans un scénario de vente au détail, l'enregistrement de 0 vente d'un article disponible est différent de l’enregistrement de 0 vente d'un article non disponible, car ce dernier n'implique pas un manque d'intérêt du client pour l'article. Pour cette raison, le remplissage par 0 dans la colonne cible de la série temporelle peut entraîner une sous-estimation du biais du prédicteur dans ses prédictions, tandis que le remplissage par NaN peut ignorer les occurrences réelles de vente de 0 article disponible et entraîner une surestimation du biais du prédicteur.

Logique de remplissage

Vous pouvez effectuer le remplissage de la colonne cible et des autres colonnes numériques de vos jeux de données. Les directives et restrictions de remplissage des colonnes cibles sont différentes de celles des autres colonnes numériques.

Instructions de remplissage
Type de colonne Remplissage par défaut ? Méthodes de remplissage prises en charge Logique de remplissage par défaut Logique de remplissage acceptée
Colonne cible Oui Remplissage intermédiaire et en amont 0
  • zero - 0 remplissage.

  • value - Nombre entier ou valeur flottante.

  • nan - N’est pas un nombre.

  • mean - Valeur moyenne de la série de données.

  • median - Valeur médiane de la série de données.

  • min : valeur minimale de la série de données.

  • max - Valeur maximale de la série de données.

Autres colonnes numériques Non Remplissage intermédiaire, en amont et en aval Pas de valeur par défaut
  • zero - 0 remplissage.

  • value - Nombre entier ou valeur flottante.

  • mean - Valeur moyenne de la série de données.

  • median - Valeur médiane de la série de données.

  • min : valeur minimale de la série de données.

  • max - Valeur maximale de la série de données.

Note

Pour la colonne cible et les autres colonnes numériques, mean, median, min et max sont calculés sur la base d'une fenêtre mobile des 64 entrées de données les plus récentes avant les valeurs manquantes.