Atualizar um conjunto de dados - Amazon SageMaker

As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.

Atualizar um conjunto de dados

Depois de importar seu conjunto de dados inicial para o Amazon SageMaker Canvas, você pode ter dados adicionais que deseja adicionar ao seu conjunto de dados. Por exemplo, você pode obter dados de inventário no final de cada semana que deseja adicionar ao seu conjunto de dados. Em vez de importar seus dados várias vezes, você pode atualizar seu conjunto de dados existente e adicionar ou remover arquivos dele.

nota

Você só pode atualizar conjuntos de dados importados por meio de upload local ou do Amazon S3.

Você pode atualizar seu conjunto de dados manual ou automaticamente. Com as atualizações automáticas, você especifica um local onde o Canvas verifica os arquivos na frequência especificada por você. Se você importar novos arquivos durante a atualização, o esquema dos arquivos deverá corresponder exatamente ao conjunto de dados existente.

Toda vez que você atualiza seu conjunto de dados, o Canvas cria uma nova versão dele. Você pode usar somente a versão mais recente do seu conjunto de dados para criar um modelo ou gerar previsões. Para obter mais informações sobre como visualizar o histórico de versões do seu conjunto de dados, consulte Visualizar os detalhes do conjunto de dados.

Você também pode usar atualizações de conjuntos de dados com previsões de lote automatizadas, o que inicia um trabalho de previsão em lote sempre que você atualiza seu conjunto de dados. Para ter mais informações, consulte Faça previsões em lote.

As seções a seguir descrevem como fazer atualizações manuais e automáticas em seu conjunto de dados.

Atualizar manualmente um conjunto de dados

Para fazer uma atualização manual, faça o seguinte:

  1. Abra o aplicativo SageMaker Canvas.

  2. No painel de navegação à esquerda, selecione Conjunto de dados.

  3. Na lista de conjuntos de dados, escolha o conjunto de dados que você deseja atualizar.

  4. Escolha o menu suspenso Atualizar conjunto de dados e escolha Atualização manual. Você será direcionado ao fluxo de trabalho de importação de dados.

  5. No menu suspenso Fonte de dados, escolha Upload local ou Amazon S3.

  6. A página mostra uma prévia dos seus dados. A partir daqui, você pode adicionar ou remover arquivos do conjunto de dados. Se você estiver importando dados tabulares, o esquema dos novos arquivos (nomes de colunas e tipos de dados) deverá corresponder ao esquema dos arquivos existentes. Além disso, seus novos arquivos não devem exceder o tamanho máximo do conjunto de dados ou do arquivo. Para obter mais informações sobre essas limitações, consulte Importar conjunto de dados.

    nota

    Se você adicionar um arquivo com o mesmo nome de um arquivo existente no seu conjunto de dados, o novo arquivo substituirá a versão antiga do arquivo.

  7. Quando estiver pronto para salvar suas alterações, escolha Atualizar conjunto de dados.

Agora você tem uma nova versão do conjunto de dados.

Na página Conjuntos de dados, você pode escolher a guia Histórico da versões para ver todas as versões do seu conjunto de dados e o histórico das atualizações manuais e automáticas que você fez.

Configurar atualizações automáticas para um conjunto de dados

Uma atualização automática é quando você define uma configuração para o Canvas atualizar seu conjunto de dados em uma determinada frequência. Recomendamos que você use essa opção se receber regularmente novos arquivos de dados que deseja adicionar ao seu conjunto de dados.

Ao definir a configuração de atualização automática, você especifica um local do Amazon S3 para carregar seus arquivos e uma frequência na qual o Canvas verifica o local e importa arquivos. Cada instância do Canvas que atualiza seu conjunto de dados é chamada de trabalho. Para cada trabalho, o Canvas importa todos os arquivos no local do Amazon S3. Se você adicionar novos arquivos com o mesmo nome de arquivos existentes no seu conjunto de dados, o Canvas substituirá os arquivos antigos pelos novos.

Para atualizações automáticas do conjunto de dados, o Canvas não realiza a validação do esquema. Se o esquema dos arquivos importados durante uma atualização automática não corresponder ao esquema dos arquivos existentes ou exceder as limitações de tamanho (consulte Importar conjunto de dados para obter uma tabela de limitações de tamanho de arquivo), você receberá erros quando seus trabalhos forem executados.

nota

Você só pode definir no máximo 20 configurações automáticas no seu aplicativo Canvas. Além disso, o Canvas só faz atualizações automáticas enquanto você está conectado ao seu aplicativo Canvas. Se você se desconectar do seu aplicativo Canvas, as atualizações automáticas serão pausadas até que você faça login novamente.

Para configurar atualizações automáticas para seu conjunto de dados, faça o seguinte:

  1. Abra o aplicativo SageMaker Canvas.

  2. No painel de navegação à esquerda, selecione Conjunto de dados.

  3. Na lista de conjuntos de dados, escolha o conjunto de dados que você deseja atualizar.

  4. Escolha o menu suspenso Atualizar conjunto de dados e escolha Atualização automática. Você será direcionado para a guia Atualizações automáticas do conjunto de dados.

  5. Ative o botão Habilitar atualização automática.

  6. Em Especificar uma fonte de dados, insira o caminho do Amazon S3 da pasta na qual você planeja fazer upload de arquivos regularmente.

  7. Em Escolher uma frequência, selecione Por hora, Semanalmente ou Diariamente.

  8. Em Especificar um horário de início, use o calendário e o seletor de horário para selecionar quando você deseja que o primeiro trabalho de atualização automática seja iniciado.

  9. Quando estiver pronto para criar a configuração de atualização automática, selecione Salvar.

O Canvas iniciará o primeiro trabalho de sua cadência de atualização automática no horário de início especificado.

Para obter mais informações sobre como visualizar seu histórico de trabalhos de atualização automática ou fazer alterações em sua configuração de atualização automática por meio da página Automações no aplicativo Canvas, consulte Gerenciar automações.

As seções a seguir descrevem como visualizar, atualizar e excluir sua configuração de atualização automática por meio da página Conjuntos de dados no aplicativo Canvas.

Visualizar seus trabalhos de atualização automática do conjunto de dados

Para visualizar o histórico de trabalhos das atualizações automáticas do seu conjunto de dados, na página de detalhes do conjunto de dados, escolha a guia Atualizações automáticas.

Cada atualização automática de um conjunto de dados é exibida como um trabalho na guia Atualizações automáticas, na seção Histórico de trabalhos. Para cada trabalho, você verá o seguinte:

  • Trabalho criado – O carimbo de data-hora de quando o Canvas começou a atualizar o conjunto de dados.

  • Arquivos – O número de arquivos no conjunto de dados.

  • Células (colunas x linhas) – O número de colunas e linhas no conjunto de dados.

  • Status – O status do conjunto de dados após a atualização. Se o trabalho tiver sido bem-sucedido, o status será Pronto. Se o trabalho falhar por algum motivo, o status será Com falha e você poderá passar o mouse sobre o status para obter mais detalhes.

Editar sua configuração de atualização automática do conjunto de dados

É possível fazer alterações na configuração de atualização automática de um conjunto de dados, como alterar a frequência das atualizações. Você também pode desativar sua configuração de atualização automática para pausar as atualizações do seu conjunto de dados.

Para fazer alterações na configuração de atualização automática de um conjunto de dados, acesse a guia Atualizações automáticas do seu conjunto de dados e escolha Editar para fazer alterações na configuração.

Para pausar as atualizações do conjunto de dados, desative sua configuração automática. Você pode desativar as atualizações automáticas acessando a guia Atualizações automáticas do seu conjunto de dados e desativando a opção Habilitar atualizações automáticas. Você pode ativar essa opção novamente a qualquer momento para retomar o cronograma de atualizações.

Excluir sua configuração de atualização automática do conjunto de dados

Para saber como excluir sua configuração, consulte Excluir uma configuração automática.