Formato de conjuntos de dados de séries temporais e métodos de preenchimento de valores ausentes - Amazon SageMaker

As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.

Formato de conjuntos de dados de séries temporais e métodos de preenchimento de valores ausentes

Dados de séries temporais referem-se a uma coleção de observações ou medições registradas em intervalos regulares de tempo. Nesse tipo de dado, cada observação é associada a um registro de data e hora específico ou período de tempo, criando uma sequência de pontos de dados ordenados cronologicamente.

As colunas específicas que você inclui em seu conjunto de dados de séries temporais dependem dos objetivos de sua análise e dos dados disponíveis para você. No mínimo, os dados de séries temporais são compostos por uma tabela de 3 colunas em que:

  • Uma coluna contém identificadores exclusivos atribuídos a itens individuais para se referir ao seu valor em um momento específico.

  • Outra coluna representa o point-in-time valor ou a meta para registrar o valor de um determinado item em um momento específico. Depois que o modelo é treinado nesses valores-alvo, essa coluna de destino contém os valores que o modelo prevê em uma frequência especificada dentro de um horizonte definido.

  • E uma coluna de carimbo de data/hora é incluída para registrar a data e a hora em que o valor foi medido.

  • Colunas adicionais podem conter outros fatores que podem influenciar o desempenho da previsão. Por exemplo, em um conjunto de dados de série temporal para varejo em que a meta são as vendas ou a receita, você pode incluir atributos que forneçam informações sobre unidades vendidas, ID do produto, localização da loja, contagem de clientes, níveis de estoque, bem como indicadores covariáveis, como dados meteorológicos ou informações demográficas.

nota

Você pode adicionar um conjunto de dados projetado por atributos de informações sobre feriados nacionais à sua série temporal. Ao incluir feriados em seu modelo de séries temporais, você pode capturar os padrões periódicos que os feriados criam. Isso ajuda suas previsões a refletir melhor a sazonalidade subjacente de seus dados. Para obter informações sobre os calendários disponíveis por país, consulte Calendários de feriados nacionais

Formato de conjuntos de dados para previsão de séries temporais

O Autopilot suporta tipos de dados numéricos, categóricos, de texto e de data e hora. O tipo de dados da coluna de destino deve ser numérico.

O piloto automático suporta dados de séries temporais formatados como arquivos CSV (padrão) ou como arquivos Parquet.

  • CSV(comma-separated-values) é um formato de arquivo baseado em linhas que armazena dados em texto simples legível por humanos, o que é uma escolha popular para troca de dados, pois são suportados por uma ampla variedade de aplicativos.

  • O Parquet é um formato de arquivo baseado em colunas em que os dados são armazenados e processados com mais eficiência do que os formatos de arquivo baseados em linhas. Isso os torna uma opção melhor para problemas de big data.

Para obter mais informações sobre os limites de recursos em conjuntos de dados de séries temporais para previsão no Autopilot, consulte Limites de recursos de previsão de séries temporais para o piloto automático.

Processamento de valores ausentes

Um problema comum nos dados de previsão de séries temporais é a presença de valores ausentes. Seus dados podem conter valores ausentes por vários motivos, incluindo falhas de medição, problemas de formatação, erros humanos ou falta de informações para registro. Por exemplo, se você estiver prevendo a demanda de produtos para uma loja de varejo e um item estiver esgotado ou indisponível, não haverá dados de vendas para registrar enquanto esse item estiver esgotado. Se prevalentes o suficiente, os valores ausentes podem afetar significativamente a precisão de um modelo.

O Autopilot fornece vários métodos de preenchimento para lidar com valores ausentes, com abordagens distintas para a coluna de destino e outras colunas adicionais. Preenchimento é o processo de adicionar valores padronizados a entradas ausentes em seu conjunto de dados.

Consulte Como lidar com valores ausentes em seus conjuntos de dados de origem para saber como definir o método para preencher valores ausentes em seu conjunto de dados de séries temporais.

O Autopilot é compatível com os seguintes métodos de preenchimento:

  • Preenchimento frontal: preenche todos os valores ausentes entre o primeiro ponto de dados registrado entre todos os itens e o ponto inicial de cada item (cada item pode começar em um horário diferente). Isso garante que os dados de cada item estejam completos e se estendam desde o primeiro ponto de dados registrado até o respectivo ponto de partida.

  • Preenchimento intermediário: preenche todos os valores faltantes entre as datas de início e término dos itens no conjunto de dados.

  • Preenchimento posterior: preenche todos os valores ausentes entre o último ponto de dados de cada item (cada item pode parar em um horário diferente) e o último ponto de dados registrado entre todos os itens.

  • Preenchimento futuro: preenche todos os valores faltantes entre o último ponto de dados registrado entre todos os itens e o final do horizonte de previsão.

A imagem a seguir fornece uma representação visual dos diferentes métodos de preenchimento.

Os diferentes métodos de preenchimento para previsão de séries temporais no Amazon SageMaker Autopilot.

Escolha uma lógica de preenchimento

Ao escolher uma lógica de preenchimento, você deve considerar como a lógica será interpretada por seu modelo. Por exemplo, em um cenário de varejo, registrar 0 vendas de um item disponível é diferente de registrar 0 vendas de um item indisponível, pois esse último não implica em uma falta de interesse do cliente no item. Por isso, o preenchimento 0 na coluna da série temporal de destino pode fazer com que o previsor seja subtendencioso em suas previsões, enquanto o preenchimento NaN pode ignorar ocorrências reais de 0 itens disponíveis que estão sendo vendidos e fazer com que o previsor seja excessivamente tendencioso.

Lógica de preenchimento

Você pode realizar o preenchimento da coluna de destino e de outras colunas numéricas em seus conjuntos de dados. As colunas de destino têm diretrizes e restrições de preenchimento diferentes das demais colunas numéricas.

Diretrizes de preenchimento

Tipo de coluna Preencher por padrão? Métodos de preenchimento compatíveis Lógica de preenchimento padrão Lógica de preenchimento aceita
Coluna de destino Sim Preenchimento intermediário e retroativo 0
  • zero – preenchimento de 0.

  • value – um número inteiro ou flutuante.

  • nan – não um número.

  • mean – o valor médio da série de dados.

  • median – o valor mediano da série de dados.

  • min: o valor mínimo da série de dados.

  • max – o valor máximo da série de dados.

Outras colunas numéricas Não Preenchimento intermediário, retroativo e futuro Sem padrão
  • zero – preenchimento de 0.

  • value – um valor inteiro ou float.

  • mean – o valor médio da série de dados.

  • median – o valor mediano da série de dados.

  • min: o valor mínimo da série de dados.

  • max – o valor máximo da série de dados.

nota

Para as colunas de destino e outras colunas numéricas, mean, median, min e max são calculados com base em uma janela contínua das 64 entradas de dados mais recentes antes dos valores ausentes.