Preparar dados - Amazon SageMaker

As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.

Preparar dados

nota

Anteriormente, o Amazon SageMaker Data Wrangler fazia parte da experiência do SageMaker Studio Classic. Agora, se você atualizar para usar a nova experiência do Studio, deverá usar o SageMaker Canvas para acessar o Data Wrangler e receber as atualizações de recursos mais recentes. Se você usa o Data Wrangler no Studio Classic até agora e deseja migrar para o Data Wrangler no Canvas, talvez seja necessário conceder permissões adicionais para poder criar e usar um aplicativo Canvas. Para ter mais informações, consulte Migre do Data Wrangler no Studio Classic para o Canvas SageMaker .

Use o Amazon SageMaker Data Wrangler no Amazon SageMaker Canvas para preparar, destacar e analisar seus dados. Você pode integrar um fluxo de preparação de dados do Data Wrangler aos seus fluxos de trabalho de machine learning (ML) para simplificar e agilizar o pré-processamento de dados e a engenharia de atributos usando pouca ou nenhuma codificação. Você também pode adicionar seus próprios scripts e transformações em Python para personalizar os fluxos de trabalho.

  • Fluxo de dados: crie um fluxo de dados para definir uma série de etapas de preparação de dados de ML. Você pode usar um fluxo para combinar conjuntos de dados de diferentes fontes de dados, identificar o número e os tipos de transformações que você deseja aplicar aos conjuntos de dados e definir um fluxo de trabalho de preparação de dados que possa ser integrado a um pipeline de ML.

  • Transforme: limpe e transforme seu conjunto de dados usando transformações padrão, como ferramentas de formatação de dados numéricos, vetoriais e de sequência de caracteres. Destaque seus dados usando transformações como incorporação de texto e data/hora e codificação categórica.

  • Gere insights de dados — verifique automaticamente a qualidade dos dados e detecte anormalidades em seus dados com o relatório Data Wrangler Data Quality and Insights.

  • Analise: analise os atributos do seu conjunto de dados em qualquer ponto do fluxo. O Data Wrangler inclui ferramentas de visualização de dados integradas, como gráficos de dispersão e histogramas, bem como ferramentas de análise de dados, como análise de vazamento de alvos e modelagem rápida para entender a correlação de atributos.

  • Exportar: exporte seu fluxo de trabalho de preparação de dados para um local diferente. Estes são locais de exemplo:

    • Bucket do Amazon Simple Storage Service (Amazon S3)

    • Amazon SageMaker Feature Store — Armazene os recursos e seus dados em uma loja centralizada.

  • Automatize a preparação de dados — Crie fluxos de trabalho de aprendizado de máquina a partir do seu fluxo de dados.

    • Amazon SageMaker Model Building Pipelines — Crie fluxos de trabalho que gerenciam suas tarefas de preparação de SageMaker dados, treinamento de modelos e implantação de modelos.

    • Pipeline de inferência serial — Crie um pipeline de inferência serial a partir do seu fluxo de dados. Use-o para fazer previsões sobre novos dados.

    • Script Python: armazene os dados e suas transformações em um script Python para seus fluxos de trabalho personalizados.