Etapa 1: Coletar e agregar dados - Princípios das previsões de séries temporais com o Amazon Forecast

Etapa 1: Coletar e agregar dados

A seguinte figura mostra um modelo mental para o problema de previsão. O objetivo é prever a série temporal z_t no futuro, usando o máximo de informações relevantes para tornar a previsão o mais precisa possível. Portanto, a primeira e mais importante etapa é coletar o máximo possível de dados corretos.

Diagrama mostrando uma série temporal z_t junto com recursos ou covariáveis (x_t) associados e várias previsões

Uma série temporal z_t junto com recursos ou covariáveis (x_t) associados e várias previsões

Na figura anterior, várias previsões são exibidas à direita da linha vertical. Essas previsões são amostras da distribuição da previsão probabilística (ou, inversamente, podem ser usadas para representar a previsão probabilística).

As principais informações que uma empresa de varejo deve registrar são:

  • Dados de vendas da transação: por exemplo, a unidade de manutenção de estoque (SKU), localização, carimbo data e hora e unidades vendidas.

  • Dados de detalhes do item SKU: os metadados de um item. Os exemplos incluem cor, departamento, tamanho e assim por diante.

  • Dados de preço: as séries temporais de preços de cada item com carimbos de data e hora.

  • Dados de informações da promoção: diferentes tipos de promoção, seja de um conjunto de itens (categoria) ou de itens individuais com carimbo de data e hora.

  • Dados de informações de estoque: para cada unidade de tempo, a informação sobre se uma SKU estava em estoque ou comprável versus se a SKU estava fora de estoque.

  • Dados de localização – A localização de um item ou venda em um determinado momento pode ser representada como uma string location_id ou store_id ou como uma geolocalização real. As geolocalizações podem ser o código do país mais o CEP de cinco dígitos ou coordenadas de latitude_longitude. A localização é considerada uma “dimensão” das vendas transacionais.

No Amazon Forecast, os dados históricos da quantidade a ser prevista são chamados de série temporal alvo (TTS). Para a empresa de varejo, a TTS são os dados de vendas transacionais. Outros dados históricos, conhecidos exatamente ao mesmo tempo que todas as transações de vendas, são chamados de série temporal relacionada (RTS). Para a empresa de varejo, a RTS incluiria variáveis de preço, promoção e estoque.

Observe que as informações de estoque são importantes, pois esse problema em como foco a demanda prevista e não as vendas, mas a empresa registra apenas as vendas. Quando uma SKU fica sem estoque, o número de vendas é menor do que a demanda potencial, por isso é importante saber e registrar quando esses eventos de falta de estoque ocorrem.

Outros conjuntos de dados a serem considerados incluem o número de visitas a páginas da web, detalhes sobre termos de pesquisa, mídias sociais e informações meteorológicas. Muitas vezes, é importante ter dados disponíveis para o passado e para o futuro para que seja possível usar esses dados em modelos. Esse é um requisito de muitos modelos de previsão e em simulações (descrito na seção Etapa 4: Avaliar previsões).

Para alguns problemas de previsão, a frequência dos dados brutos corresponde naturalmente à do problema de previsão. Os exemplos incluem a solicitação do volume do servidor, que é amostrado por minuto, quando você deseja prever com frequência de minutos.

Os dados são geralmente registrados em uma frequência mais refinada ou simplesmente em carimbos de data e hora arbitrários dentro de um intervalo de tempo, mas o problema de previsão está em uma granularidade mais grosseira. Esta é uma ocorrência comum no estudo de caso de varejo, em que os dados de vendas normalmente são registrados como dados transacionais. Por exemplo, o formato consiste em um carimbo de data e hora com uma granularidade refinada de quando as vendas aconteceram. No caso de uso da previsão, é possível que essa baixa granularidade não seja necessária e que seja apropriado agregar esses dados em vendas diárias ou por hora. Aqui, o nível de agregação corresponde ao problema downstream, por exemplo, gerenciamento de inventário ou planejamento de recursos.

Exemplo

Na seguinte figura, o gráfico à esquerda mostra um exemplo dos dados brutos de vendas do cliente que podem ser inseridos no Amazon Forecast como um arquivo de valores separados por vírgula (CSV). Neste exemplo, os dados de vendas são definidos em uma grade horária diária mais refinada, e o problema é prever a demanda semanal na grade de tempo mais grossa no futuro. O Amazon Forecast realiza a agregação dos valores diários em uma determinada semana na chamada de API create_predictor.

O resultado transforma os dados brutos em uma coleção de séries temporais bem formadas com uma frequência semanal fixa. O gráfico à direita ilustra essa agregação na série temporal alvo usando o método de agregação de soma padrão. Outros métodos de agregação incluem calcular a média, o máximo, o mínimo ou escolher um único ponto (por exemplo, o primeiro). A granularidade e o método de agregação devem ser escolhidos de forma que correspondam melhor ao caso de uso comercial dos dados. Neste exemplo, o valor agregado está alinhado à agregação semanal. Outros métodos de agregação podem ser definidos pelo usuário usando a chave FeaturizationMethodParameters do parâmetro FeaturizationConfig da API create_predictor.

Diagrama mostrando a agregação de dados brutos de vendas como eventos, em uma série temporal igualmente espaçada

Agregação de dados brutos de vendas como eventos (esquerda) em uma série temporal igualmente espaçada (direita)