Crie um experimento de piloto automático de regressão ou classificação para dados tabulares usando a interface do usuário do Studio Classic - Amazon SageMaker

As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.

Crie um experimento de piloto automático de regressão ou classificação para dados tabulares usando a interface do usuário do Studio Classic

Você pode usar a interface do usuário do Amazon SageMaker Studio Classic para criar experimentos de piloto automático para problemas de classificação ou regressão em dados tabulares. A interface do usuário ajuda você a especificar o nome do seu experimento, fornecer locais para os dados de entrada e saída e especificar quais dados-alvo prever. Opcionalmente, você também pode especificar o tipo de problema que deseja resolver (regressão, classificação, classificação multiclasse), escolher sua estratégia de modelagem (conjuntos empilhados ou otimização de hiperparâmetros), selecionar a lista de algoritmos usados pelo trabalho do piloto automático para treinar os dados e muito mais.

A interface do usuário tem descrições, opções de alternância, menus suspensos, botões de opção e muito mais para ajudá-lo a navegar na criação de seus candidatos a modelo. Após a execução do experimento, você pode comparar os testes e se aprofundar nos detalhes das etapas de pré-processamento, dos algoritmos e dos intervalos de hiperparâmetros de cada modelo. Opcionalmente, você pode baixar seus relatórios de explicabilidade e desempenho. Use os cadernos fornecidos para ver os resultados da exploração automatizada de dados ou as definições do modelo candidato.

Como alternativa, você pode usar a API Autopilot AutoML no. Crie um trabalho de regressão ou classificação para dados tabulares usando a API AutoML

Para criar um experimento de piloto automático usando a interface do usuário do Studio Classic
  1. Faça login em https://console.aws.amazon.com/sagemaker/, escolha Studio no painel de navegação esquerdo, selecione seu domínio e perfil de usuário e, em seguida, abra o Studio.

  2. No Studio, escolha o ícone do Studio Classic no painel de navegação superior esquerdo. Isso abre um aplicativo Studio Classic.

  3. Execute ou abra um aplicativo do Studio Classic no espaço de sua escolha ou crie um espaço do Studio Classic. . Na guia Início, escolha o cartão AutoML. Isso abre uma nova guia AutoML.

  4. Escolha Criar um experimento AutoML. Isso abre uma nova guia Criar experimento.

  5. Na seção Detalhes do experimento e dos dados, insira as seguintes informações:

    1. Nome do experimento — deve ser exclusivo da sua conta atual Região da AWS e conter no máximo 63 caracteres alfanuméricos. Pode incluir hifens (-), mas não espaços.

    2. Dados de entrada – Forneça a localização do bucket do Amazon Simple Storage Service (Amazon S3) dos seus dados de entrada. Esse bucket do S3 deve estar na sua Região da AWS. O URL deve estar em um s3:// formato em que a Amazon SageMaker tenha permissões de gravação. O arquivo deve estar no formato CSV ou Parquet e conter pelo menos 500 linhas. Selecione Procurar para percorrer os caminhos disponíveis e Visualizar para ver uma amostra dos dados de entrada.

    3. Sua entrada do S3 é um arquivo de manifesto? — Um arquivo de manifesto inclui metadados com seus dados de entrada. Os metadados especificam a localização dos seus dados no Amazon S3. Ele também especifica como os dados são formatados e quais atributos do conjunto de dados devem ser usados ao treinar seu modelo. É possível usar um arquivo de manifesto como alternativa ao pré-processamento quando seus dados rotulados estão sendo transmitidos no modo Pipe.

    4. Divisão automática de dados? — O piloto automático pode dividir seus dados em uma divisão de 80- 20% para dados de treinamento e validação. Se preferir uma divisão personalizada, você pode escolher a opção Especificar proporção de divisão. Para usar um conjunto de dados personalizado para validação, escolha Fornecer um conjunto de validação.

    5. Local dos dados de saída (bucket do S3) – O nome do local do bucket do S3 em que você deseja armazenar os dados de saída. A URL desse bucket deve estar no formato Amazon S3 em que a Amazon SageMaker tenha permissões de gravação. O bucket do S3 deve estar na atual Região da AWS. O piloto automático também pode criar isso para você no mesmo local dos dados de entrada.

  6. Escolha Avançar: Alvo e atributos. A guia Alvo e atributos é aberta.

  7. Na seção Alvo e atributos:

    • Selecione uma coluna para definir como meta para as previsões do modelo.

    • Opcionalmente, você pode passar o nome de uma coluna de pesos amostrais na seção Peso amostral para solicitar que as linhas do conjunto de dados sejam ponderadas durante o treinamento e a avaliação. Para obter mais informações sobre as métricas objetivas disponíveis, consulte Métricas ponderadas do Autopilot.

      nota

      O suporte para pesos de amostra está disponível somente no modo de agrupamento.

    • Você também pode selecionar atributos para treinamento e alterar o tipo de dados. Os seguintes tipos de dados estão disponíveis: Text, Numerical, Categorical, Datetime, Sequence e Auto. Todos os atributos são selecionados por padrão.

  8. Escolha Avançar: método de treinamento. A guia Método de treinamento é aberta.

  9. Na seção Método de treinamento, selecione sua opção de treinamento: Agrupamento, Otimização de hiperparâmetros (HPO) ou Auto para permitir que o Autopilot escolha o método de treinamento automaticamente com base no tamanho do conjunto de dados. Cada modo de treinamento executa um conjunto predefinido de algoritmos em seu conjunto de dados para treinar candidatos a modelos. Por padrão, o Autopilot pré-seleciona todos os algoritmos disponíveis para o modo de treinamento específico. É possível realizar um experimento de treinamento do piloto automático com todos os algoritmos ou escolher seu próprio subconjunto.

    Para obter mais informações sobre os modos de treinamento e os algoritmos disponíveis, consulte a seção Modos de treinamento do piloto automático na página Modos de treinamento e algoritmos.

  10. Escolha Avançar: Implantação e configurações avançadas para abrir a guia Implantação e configurações avançadas. As configurações incluem o nome do endpoint de exibição automática, o tipo de problema de machine learning e opções adicionais para executar seu experimento.

    1. Configurações de implantação – O Autopilot pode criar automaticamente um endpoint e implantar seu modelo para você.

      Para implantar automaticamente em um endpoint gerado automaticamente ou para fornecer um nome de endpoint para implantação personalizada, defina a opção como Sim em Implantação automática? Se você estiver importando dados do Amazon Data Wrangler, você tem opções adicionais para implantar automaticamente o melhor modelo com ou sem as transformações do SageMaker Data Wrangler.

      nota

      Se o fluxo do Data Wrangler contiver operações de várias linhas como, ou groupby, join ou concatenate, você não poderá implantar automaticamente essas transformações. Para obter mais informações, consulte Treinar modelos automaticamente em seu fluxo de dados.

    2. Configurações avançadas (opcional) – O piloto automático fornece controles adicionais para definir manualmente parâmetros experimentais, como definir o tipo de problema, restrições de tempo no trabalho e nos testes do piloto automático, configurações de segurança e criptografia.

      nota

      O piloto automático suporta a configuração de valores padrão para simplificar a configuração dos experimentos do piloto automático usando a interface do usuário do Studio Classic. Os administradores podem usar as configurações de ciclo de vida (LCC) do Studio Classic para definir valores de infraestrutura, rede e segurança nos arquivos de configuração e preencher previamente as configurações avançadas dos trabalhos. AutoML

      Para saber mais sobre como os administradores podem automatizar a personalização de um experimento do piloto automático, consulte Configurar os parâmetros padrão de um experimento de piloto automático (para administradores).

      1. Tipo de problema de machine learning – O piloto automático pode inferir automaticamente o tipo de problema de aprendizado supervisionado a partir do seu conjunto de dados. Se preferir escolhê-lo manualmente, você pode usar o menu suspenso Selecionar o tipo de problema de machine learning. Observe que o padrão é Auto. Em alguns casos, SageMaker é incapaz de inferir com precisão. Quando isso acontece, você deve fornecer o valor para que o trabalho seja bem-sucedido. Em particular, é possível escolher entre os seguintes tipos:

        • Classificação binária – A classificação binária atribui dados de entrada a uma das duas classes predefinidas e mutuamente exclusivas, com base em seus atributos, como diagnóstico médico baseado em resultados de testes diagnósticos que determinam se alguém tem uma doença.

        • Regressão – A regressão estabelece uma relação entre as variáveis de entrada (também conhecidas como variáveis independentes ou atributos) e a variável alvo (também conhecida como variável dependente). Essa relação é capturada por meio de uma função ou modelo matemático que mapeia as variáveis de entrada para uma saída contínua. É comumente usado para tarefas como prever preços de casas com base em características como metragem quadrada e número de banheiros, tendências do mercado de ações ou estimativa de números de vendas.

        • Classificação multiclasse – A classificação multiclasse atribui dados de entrada a uma das várias classes com base em seus atributos, como a previsão do tópico mais relevante para um documento de texto, como política, finanças ou filosofia.

      2. Runtime – É possível definir um limite máximo de tempo. Ao atingir o limite de tempo, os testes e trabalhos que excedem a restrição de tempo são interrompidos automaticamente.

      3. Acesso — Você pode escolher a função que o Amazon SageMaker Studio Classic assume para obter acesso temporário Serviços da AWS (em particular, SageMaker ao Amazon S3) em seu nome. Se nenhuma função for definida explicitamente, o Studio Classic usará automaticamente a função de SageMaker execução padrão anexada ao seu perfil de usuário.

      4. Criptografia — Para aumentar a segurança de seus dados em repouso e protegê-los contra acesso não autorizado, você pode especificar chaves de criptografia para criptografar dados em seus buckets do Amazon S3 e no volume do Amazon Elastic Block Store (Amazon EBS) anexado ao seu domínio do Studio Classic.

      5. Segurança — Você pode escolher a nuvem privada virtual (Amazon VPC) na qual seu SageMaker trabalho é executado. Certifique-se de que a Amazon VPC tenha acesso aos seus buckets de entrada e saída do Amazon S3.

      6. Projeto — Especifique o nome do SageMaker projeto a ser associado a esse experimento do piloto automático e às saídas do modelo. Quando você especifica um projeto, o Autopilot marca o projeto como um experimento. Isso permite que você saiba quais saídas do modelo estão associadas a esse projeto.

      7. Etiquetas – As etiquetas são um array de pares de chave-valor. Use tags para categorizar seus recursos Serviços da AWS, como finalidade, proprietário ou ambiente.

    3. Escolha Avançar: Revise e crie para obter um resumo do seu experimento de piloto automático antes de criá-lo.

  11. Selecione Criar experimento. A criação do experimento inicia um trabalho de piloto automático em. SageMaker O piloto automático fornece o status do experimento, informações sobre o processo de exploração de dados e candidatos a modelos em cadernos, uma lista dos modelos gerados e seus relatórios e o perfil de trabalho usado para criá-los.

    Para obter informações sobre os notebooks gerados por uma tarefa de piloto automático, consulte Notebooks Amazon SageMaker Autopilot gerados para gerenciar tarefas do AutoML. Para obter informações sobre os detalhes de cada candidato a modelo e seus relatórios, consulte Modelos gerados pelo Amazon SageMaker Autopilot .

nota

Para evitar cobranças desnecessárias: se você implantar um modelo que não é mais necessário, exclua os endpoints e os recursos que foram criados durante a implantação. Informações sobre instâncias de preços por região estão disponíveis na Amazon SageMaker Pricing.