Configuração Criação de fluxo Relatório 1 de qualidade de dados e insights (amostra)Exclua o ano e a hora do dia Relatório de Qualidade de Dados e Insights 2 (conjunto de dados completo)Lidar com problemas de qualidade de dados Verificando a qualidade dos dados e a precisão rápida do modelo Divida os dados em conjuntos de dados de treinamento, teste e validação.Modelos de treinamento Avalie o modelo e faça predições Implantar um modelo Limpeza

Tutorial: Crie um fluxo de trabalho end-to-end de aprendizado de máquina no SageMaker Canvas

Este tutorial orienta você em um fluxo de trabalho end-to-end de aprendizado de máquina (ML) usando o Amazon SageMaker Canvas. SageMaker O Canvas é uma interface visual sem código que você pode usar para preparar dados e treinar e implantar modelos de ML. Para o tutorial, você usa um conjunto de dados de táxi de Nova York para treinar um modelo que prevê o valor da tarifa para uma determinada viagem. Você obtém experiência prática com as principais tarefas de ML, como avaliar a qualidade dos dados e resolver problemas de dados, dividir os dados em conjuntos de treinamento e teste, treinamento e avaliação de modelos, fazer previsões e implantar seu modelo treinado — tudo dentro do aplicativo Canvas. SageMaker

Importante

Este tutorial pressupõe que você ou seu administrador tenham criado uma AWS conta. Para obter informações sobre como criar uma AWS conta, consulte Introdução: Você é um AWS usuário iniciante?

Configuração

Um domínio da Amazon SageMaker AI é um local centralizado para gerenciar todos os seus ambientes e recursos de SageMaker IA da Amazon. Um domínio atua como um limite virtual para seu trabalho em SageMaker IA, fornecendo isolamento e controle de acesso para seus recursos de aprendizado de máquina (ML).

Para começar a usar o Amazon SageMaker Canvas, você ou seu administrador devem navegar até o console de SageMaker IA e criar um domínio do Amazon SageMaker AI. Um domínio tem os recursos de armazenamento e computação necessários para você executar o SageMaker Canvas. Dentro do domínio, você configura o SageMaker Canvas para acessar seus buckets do Amazon S3 e implantar modelos. Use o procedimento a seguir para configurar um domínio rápido e criar um aplicativo SageMaker Canvas.

Para configurar o SageMaker Canvas

Navegue até o console de SageMaker IA.
Na navegação à esquerda, escolha SageMaker Canvas.
Escolha Criar um domínio de SageMaker IA.
Escolha Configurar. Pode levar alguns minutos para configurar o domínio.

O procedimento anterior usou uma configuração rápida de domínio. Você pode realizar uma configuração avançada para controlar todos os aspectos da configuração da conta, incluindo permissões, integrações e criptografia. Para obter mais informações sobre a configuração personalizada, consulte Use a configuração personalizada para Amazon SageMaker AI.

Por padrão, a configuração rápida do domínio fornece permissões para implantar modelos. Se você tiver permissões personalizadas configuradas por meio de um domínio padrão e precisar conceder manualmente as permissões de implantação do modelo, consulteGerenciamento de permissões.

Criação de fluxo

O Amazon SageMaker Canvas é uma plataforma de aprendizado de máquina que permite aos usuários criar, treinar e implantar modelos de aprendizado de máquina sem grande experiência em programação ou aprendizado de máquina. Um dos recursos poderosos do Amazon SageMaker Canvas é a capacidade de importar e trabalhar com grandes conjuntos de dados de várias fontes, como o Amazon S3.

Para este tutorial, estamos usando o conjunto de dados de táxi de Nova York para prever o valor da tarifa para cada viagem usando um fluxo de dados do Amazon SageMaker Canvas Data Wrangler. O procedimento a seguir descreve as etapas para importar uma versão modificada do conjunto de dados de táxi de Nova York em um fluxo de dados.

nota

Para melhorar o processamento, o SageMaker Canvas importa uma amostra dos seus dados. Por padrão, ele coleta amostras aleatoriamente de 50.000 linhas.

Para importar o conjunto de dados de táxis de Nova York

Na página inicial do SageMaker Canvas, escolha Data Wrangler.
Escolha Importar dados.
Selecione Tabular.
Escolha a caixa de ferramentas ao lado da fonte de dados.
Selecione Amazon S3 no menu suspenso.
Para o endpoint S3 de entrada, especifique s3://amazon-sagemaker-data-wrangler-documentation-artifacts/canvas-single-file-nyc-taxi-dataset.csv
Escolha Ir.
Marque a caixa de seleção ao lado do conjunto de dados.
Escolha Visualizar dados.
Escolha Salvar.

Relatório 1 de qualidade de dados e insights (amostra)

Depois de importar um conjunto de dados para o Amazon SageMaker Canvas, você pode gerar um relatório de qualidade de dados e insights sobre uma amostra dos dados. Use-o para fornecer informações valiosas sobre o conjunto de dados. O relatório faz o seguinte:

Avalia a integridade do conjunto de dados
Identifica valores ausentes e valores discrepantes

Ele pode identificar outros possíveis problemas que podem afetar o desempenho do modelo. Ele também avalia o poder preditivo de cada atributo em relação à variável alvo, permitindo que você identifique os atributos mais relevantes para o problema que você está tentando resolver.

Podemos usar as informações do relatório para prever o valor da tarifa. Ao especificar a coluna Valor da tarifa como a variável-alvo e selecionar Regressão como o tipo de problema, o relatório analisará a adequação do conjunto de dados para prever valores contínuos, como preços de tarifas. O relatório deve revelar que atributos como ano e hora_do_dia têm baixo poder preditivo para a variável-alvo escolhida, fornecendo informações valiosas.

Use o procedimento a seguir para obter um relatório de Qualidade dos Dados e Insights sobre uma amostra de 50.000 linhas do conjunto de dados.

Para obter um relatório sobre uma amostra

Escolha Obter informações de dados na janela pop-up ao lado do nó Tipos de dados.
Em Nome da análise, especifique um nome para o relatório de insights.
Em Tipo de problema, escolha Regressão.
Na coluna Alvo, escolha Valor da tarifa.
Escolha Criar.

É possível revisar o relatório de Qualidade dos Dados e Insights em uma amostra de seus dados. O relatório indica que os atributos do ano e da hora do dia não são preditivos da variável-alvo, valor da tarifa.

Na parte superior da navegação, escolha o nome do fluxo de dados para voltar para ele.

Exclua o ano e a hora do dia

Estamos usando os insights do relatório para eliminar as colunas ano e hora_do_dia para otimizar o espaço de atributos e potencialmente melhorar o desempenho do modelo.

O Amazon SageMaker Canvas fornece uma interface e ferramentas fáceis de usar para realizar essas transformações de dados.

Use o procedimento a seguir para remover as colunas ano e hora_do_dia do conjunto de dados de táxis de Nova York usando a ferramenta Data Wrangler no Amazon Canvas. SageMaker

Escolha o ícone ao lado de Tipos de dados.
Escolha Adicionar etapa.
Na barra de pesquisa, escreva Excluir Coluna.
Escolha Gerenciar colunas.
Escolha Excluir coluna.
Em Colunas a serem excluídas, selecione as colunas ano e hora_do_dia.
Escolha Pré-Visualizar para ver como sua transformação altera seus dados.
Escolha Adicionar.

Você pode usar o procedimento anterior como base para adicionar todas as outras transformações no SageMaker Canvas.

Relatório de Qualidade de Dados e Insights 2 (conjunto de dados completo)

Para o relatório de insights anterior, usamos uma amostra do conjunto de dados de táxis de Nova York. Para nosso segundo relatório, estamos realizando uma análise abrangente de todo o conjunto de dados para identificar possíveis problemas que afetam o desempenho do modelo.

Use o procedimento a seguir para criar um relatório de Qualidade de Dados e Insights sobre um conjunto de dados inteiro.

Para obter um relatório sobre o conjunto de dados inteiro

Escolha o ícone ao lado do nó Eliminar colunas.
Selecione Obter insights de dados.
Em Nome da análise, especifique um nome para o relatório de insights.
Em Tipo de problema, escolha Regressão.
Na coluna Alvo, escolha Valor da tarifa.
Em Tamanho dos dados, escolha Conjunto de dados completo.
Escolha Criar.

A seguir está uma imagem do relatório de insights:

Linhas duplicadas, alvo distorcido e pontuação muito baixa do modelo rápido estão listadas como insightsP

Ele mostra os seguintes problemas:

Linhas duplicadas
Alvo distorcido

Linhas duplicadas podem levar ao vazamento de dados, onde o modelo é exposto aos mesmos dados durante o treinamento e o teste. Eles podem levar a métricas de desempenho excessivamente otimistas. A remoção de linhas duplicadas garante que o modelo seja treinado em instâncias exclusivas, reduzindo o risco de vazamento de dados e melhorando a capacidade de generalização do modelo.

Uma distribuição distorcida da variável-alvo, nesse caso, a coluna Valor da tarifa, pode causar classes desequilibradas, em que o modelo pode se tornar tendencioso para a classe majoritária. Isso pode levar a um desempenho ruim em classes minoritárias, o que é particularmente problemático em cenários em que é importante prever com precisão instâncias raras ou sub-representadas.

Lidar com problemas de qualidade de dados

Para resolver esses problemas e preparar o conjunto de dados para modelagem, você pode pesquisar as seguintes transformações e aplicá-las:

Elimine duplicatas usando a transformação Gerenciar linhas.
Lide com valores discrepantes na coluna Valor da tarifa usando os valores discrepantes numéricos de desvio padrão robusto.
Gerencie valores discrepantes nas colunas Distância da viagem e Duração da viagem usando os valores atípicos numéricos do desvio padrão.
Use a categoria Codificar para codificar as colunas Código de tarifa ID, Tipo de pagamento, Sinalizador extra e Sinalizador de pedágio como flutuantes.

Se você não tiver certeza sobre como aplicar uma transformação, consulte Exclua o ano e a hora do dia

Ao abordar esses problemas de qualidade de dados e aplicar as transformações apropriadas, você pode melhorar a adequação do conjunto de dados para modelagem.

Verificando a qualidade dos dados e a precisão rápida do modelo

Depois de aplicar as transformações para resolver problemas de qualidade de dados, como remover linhas duplicadas, criamos nosso relatório final de Qualidade de Dados e Insights. Esse relatório ajuda a verificar se as transformações aplicadas resolveram os problemas e se o conjunto de dados agora está em um estado adequado para modelagem.

Ao revisar o relatório final de qualidade de dados e insights, você não deve esperar que nenhum problema importante de qualidade de dados seja sinalizado. O relatório deve indicar que:

A variável alvo não está mais distorcida
Não há valores atípicos ou linhas duplicadas

Além disso, o relatório deve fornecer uma pontuação rápida do modelo com base em um modelo de linha de base treinado no conjunto de dados transformado. Essa pontuação serve como um indicador inicial da precisão e desempenho potenciais do modelo.

Use o procedimento a seguir para criar um relatório de Qualidade dos Dados e Insights.

Para criar um relatório de Qualidade dos Dados e Insights

Escolha o ícone ao lado do nó Eliminar colunas.
Selecione Obter insights de dados.
Em Nome da análise, especifique um nome para o relatório de insights.
Em Tipo de problema, escolha Regressão.
Na coluna Alvo, escolha Valor da tarifa.
Em Tamanho dos dados, escolha Conjunto de dados completo.
Escolha Criar.

Divida os dados em conjuntos de dados de treinamento, teste e validação.

Para treinar um modelo e avaliar seu desempenho, usamos a transformação de dados Split para dividir os dados em conjuntos de treinamento e teste.

Por padrão, o SageMaker Canvas usa uma divisão aleatória, mas você também pode usar os seguintes tipos de divisões:

Ordenada
Estratificado
Dividir por chave

Você pode alterar a porcentagem de divisão ou adicionar divisões.

Para este tutorial, use as configurações padrão. Você precisa clicar duas vezes no conjunto de dados para ver seu nome. O conjunto de dados de treinamento tem o nome Conjunto de dados (treinamento).

Ao lado do nó de Codificação ordinal, aplique a transformação de dados Split.

Modelos de treinamento

Depois de dividir seus dados, você pode treinar um modelo. Esse modelo aprende com os padrões em seus dados. Você pode usá-lo para fazer predições ou descobrir insights.

SageMaker O Canvas tem compilações rápidas e compilações padrão. Use uma versão padrão para treinar o modelo de melhor desempenho em seus dados.

Antes de começar a treinar um modelo, você deve primeiro exportar o conjunto de dados de treinamento como um conjunto de dados do SageMaker Canvas.

Para importar seus conjuntos de dados

Ao lado do nó do conjunto de dados de treinamento, escolha o ícone e selecione Exportar.
Selecione o conjunto de dados do SageMaker Canvas.
Escolha Exportar para exportar o conjunto de dados.

Depois de criar um conjunto de dados, você pode treinar um modelo no conjunto de dados SageMaker Canvas que você criou. Para obter informações sobre como treinar um modelo, consulte Criar um modelo personalizado de predição numérica ou categórica.

Avalie o modelo e faça predições

Depois de treinar seu modelo de machine learning, é fundamental avaliar seu desempenho para garantir que ele atenda aos seus requisitos e tenha um bom desempenho em dados não vistos. O Amazon SageMaker Canvas fornece uma interface fácil de usar para avaliar a precisão do seu modelo, revisar suas previsões e obter informações sobre seus pontos fortes e fracos. Você pode usar os insights para tomar decisões informadas sobre sua implantação e possíveis áreas de melhoria.

Use o procedimento a seguir para avaliar um modelo antes de implantá-lo.

Como avaliar um modelo

Escolha Meus modelos.
Escolha o modelo que você criou.
Em Versões, selecione a versão correspondente ao modelo.

Agora é possível visualizar as métricas de avaliação do modelo.

Depois de compilar o modelo, você pode fazer predições sobre novos dados. Estamos usando o conjunto de dados de teste que criamos.

Para usar o conjunto de dados de teste para previsões, precisamos convertê-lo em um conjunto de dados do SageMaker Canvas. O conjunto de dados do SageMaker Canvas está em um formato que o modelo pode interpretar.

Use o procedimento a seguir para criar um conjunto de dados do SageMaker Canvas a partir do conjunto de dados de teste.

Para criar um conjunto de dados do SageMaker Canvas

Ao lado do conjunto de dados (Teste), escolha o ícone do rádio.
Selecione Exportar.
Selecione o conjunto de dados do SageMaker Canvas.
Em nome do conjunto de dados, especifique o nome do conjunto de dados.
Escolha Exportar.

Use o procedimento a seguir para fazer predições. Isso pressupõe que você ainda esteja na página Analisar.

Para fazer predições no conjunto de dados de teste

Escolha Prever.
Escolha Manual.
Selecione o conjunto de dados que você exportou.
Em seguida, escolha Gerar predições.
Quando o SageMaker Canvas terminar de gerar as previsões, selecione o ícone à direita do conjunto de dados.
Escolha Visualizar para visualizar a alteração.

Implantar um modelo

Depois de avaliar seu modelo, você pode implantá-lo em um endpoint. Você pode enviar solicitações ao endpoint para obter predições.

Use o procedimento a seguir para implantar um visual. Isso pressupõe que você ainda esteja na página Predict.

Para implantar o modelo

Escolha Implantar.
Escolha Criar implantação.
Escolha Implantar.

Limpeza

Você concluiu o tutorial com êxito. Para evitar cobranças adicionais, exclua os recursos que você não está mais usando.

Use o procedimento a seguir para excluir um endpoint que você criou. Isso pressupõe que você ainda esteja na página Implantar.

Para excluir um endpoint

Escolha o botão de opção à direita da sua implantação.
Selecione Excluir implantação.
Escolha Excluir.

Depois de excluir a implantação, exclua os conjuntos de dados que você criou no SageMaker Canvas. Use o procedimento a seguir para excluir um conjunto de dados.

Para excluir os conjuntos de dados

No painel de navegação à esquerda, escolha Conjunto de Dados.
Selecione o conjunto de dados que você analisou e o conjunto de dados sintético usado para predições.
Escolha Excluir.

Para evitar cobranças adicionais, você deve sair do SageMaker Canvas. Para obter mais informações, consulte Sair do Amazon SageMaker Canvas.

Atenção O Javascript está desativado ou não está disponível no seu navegador.

Para usar a documentação da AWS, o Javascript deve estar ativado. Consulte as páginas de Ajuda do navegador para obter instruções.

Convenções do documento

Começar

Configuração e gerenciamento de permissões do Amazon SageMaker Canvas (para administradores de TI)