Edite a configuração de amostragem do fluxo de dados

Ao importar dados tabulares para um fluxo de dados do Data Wrangler, você pode optar por coletar uma amostra do seu conjunto de dados para acelerar o processo de exploração e limpeza de dados. Executar transformações exploratórias em uma amostra do seu conjunto de dados geralmente é mais rápido do que executar transformações em todo o conjunto de dados, e quando você estiver pronto para exportar seu conjunto de dados e criar um modelo, poderá aplicar as transformações ao conjunto de dados completo.

O Canvas oferece apoio aos seguintes métodos de amostragem:

FirstK: O Canvas seleciona os primeiros K itens do seu conjunto de dados, onde K é um número que você especifica. Esse método de amostragem é simples, mas pode introduzir um desvio se o conjunto de dados não for ordenado aleatoriamente.
Aleatório: O Canvas seleciona itens do conjunto de dados aleatoriamente, com cada item tendo a mesma probabilidade de ser escolhido. Esse método de amostragem ajuda a garantir que a amostra seja representativa de todo o conjunto de dados.
Estratificado: O Canvas divide o conjunto de dados em grupos (ou estratos) com base em um ou mais atributos (por exemplo, idade e nível de renda). Em seguida, um número proporcional de itens é selecionado aleatoriamente de cada grupo. Esse método garante que todos os subgrupos relevantes sejam adequadamente representados na amostra.

Você pode editar sua configuração de amostragem a qualquer momento para alterar o tamanho da amostra usada para exploração de dados.

Para fazer alterações na configuração de amostragem automática, faça o seguinte:

Em seu gráfico de fluxo de dados, selecione o nó da fonte de dados.
Escolha Amostragem na barra de navegação inferior.
A caixa de diálogo Amostragem é exibida. No menu suspenso Método de amostragem, selecione o método de amostragem desejado.
Em Tamanho máximo da amostra, insira o número de linhas que você deseja amostrar.
Escolha Atualizar para salvar suas alterações.

As alterações em sua configuração de amostragem agora devem ser aplicadas.

Atenção O Javascript está desativado ou não está disponível no seu navegador.

Para usar a documentação da AWS, o Javascript deve estar ativado. Consulte as páginas de Ajuda do navegador para obter instruções.

Convenções do documento

Como a interface do usuário do fluxo de dados funciona

Adicione uma etapa ao seu fluxo de dados