SageMaker Piloto automático

Importante

Em 30 de novembro de 2023, a interface do usuário do Autopilot está migrando para o Amazon SageMaker Canvas como parte da experiência atualizada do Amazon SageMaker Studio. SageMaker O Canvas fornece aos cientistas de dados recursos sem código para tarefas como preparação de dados, engenharia de recursos, seleção de algoritmos, treinamento e ajuste, inferência, monitoramento contínuo de modelos e muito mais. SageMaker O Canvas suporta uma variedade de casos de uso, incluindo visão computacional, previsão de demanda, pesquisa inteligente e IA generativa.

Os usuários do Amazon SageMaker Studio Classic, a experiência anterior do Studio, podem continuar usando a interface do usuário do Autopilot no Studio Classic. Usuários com experiência em programação podem continuar usando todas as referências de API em qualquer SDK compatível para implementação técnica.

Se você usa o Autopilot no Studio Classic até agora e deseja migrar para o SageMaker Canvas, talvez seja necessário conceder permissões adicionais ao seu perfil de usuário ou função do IAM para poder criar e usar o aplicativo SageMaker Canvas. Para ter mais informações, consulte Migre do piloto automático no Studio Classic para o Canvas SageMaker .

Todas as instruções relacionadas à interface do usuário neste guia se referem aos recursos autônomos do Autopilot antes da migração para o Amazon Canvas. SageMaker Os usuários que seguem essas instruções devem usar o Studio Classic.

O Amazon SageMaker Autopilot é um conjunto de recursos que simplifica e acelera vários estágios do fluxo de trabalho de aprendizado de máquina ao automatizar o processo de criação e implantação de modelos de aprendizado de máquina (AutoML).

O piloto automático executa as seguintes tarefas principais que você pode usar no piloto automático ou com vários graus de orientação humana:

Análise e pré-processamento de dados: o Autopilot identifica seu tipo de problema específico, processa valores ausentes, normaliza seus dados, seleciona recursos e, em geral, prepara os dados para o treinamento de modelos.
Seleção de modelos: o Autopilot explora uma variedade de algoritmos e usa uma técnica de reamostragem de validação cruzada para gerar métricas que avaliam a qualidade preditiva dos algoritmos com base em métricas objetivas predefinidas.
Otimização de hiperparâmetros: o piloto automático automatiza a busca por configurações ideais de hiperparâmetros.
Treinamento e avaliação de modelos: o piloto automático automatiza o processo de treinamento e avaliação de vários candidatos a modelos. Ele divide os dados em conjuntos de treinamento e validação, treina os candidatos ao modelo selecionados usando os dados de treinamento e avalia sua performance com base nos dados não vistos no conjunto de validação. Por fim, ele classifica os candidatos a modelos otimizados com base em sua performance e identifica o modelo com melhor performance.
Implantação do modelo: depois que o Autopilot identifica o modelo com melhor desempenho, ele oferece a opção de implantar o modelo automaticamente gerando os artefatos do modelo e o endpoint expondo uma API. Aplicativos externos podem enviar dados para o endpoint e receber as previsões ou inferências correspondentes.

O Autopilot oferece suporte à criação de modelos de machine learning em grandes conjuntos de dados de até centenas de GBs.

O diagrama a seguir descreve as tarefas desse processo do AutoML gerenciado pelo Autopilot.

Visão geral do processo Amazon SageMaker Autopilot AutoML.

Dependendo do seu nível de conforto com o processo de machine learning e sua experiência em codificação, você pode usar o Autopilot de diferentes maneiras:

Usando a interface do Studio Classic, os usuários podem escolher entre uma experiência sem código ou ter algum nível de contribuição humana.

nota
Somente experimentos criados a partir de dados tabulares para tipos de problemas, como regressão ou classificação, estão disponíveis por meio da interface do usuário do Studio Classic.
Usando a API AutoML, os usuários com experiência em codificação podem usar os SDKs disponíveis para criar trabalhos do AutoML. Essa abordagem oferece maior flexibilidade e opções de personalização e está disponível para todos os tipos de problemas.

Atualmente, o Autopilot oferece suporte aos seguintes tipos de problemas:

nota

Para problemas de regressão ou classificação envolvendo dados tabulares, os usuários podem escolher entre duas opções: usar a interface de usuário do Studio Classic ou a API Reference.

Tarefas como classificação de texto e imagem, previsão de séries temporais e ajuste fino de grandes modelos de linguagem estão disponíveis exclusivamente por meio da versão 2 da API REST do AutoML. Se sua linguagem preferida for Python, você pode se referir diretamente ao AWS SDK for Python (Boto3)objeto AutoMLv2 do Amazon Python SDK. SageMaker

Os usuários que preferem a conveniência de uma interface de usuário podem usar o Amazon SageMaker Canvas para acessar modelos pré-treinados e modelos básicos de IA generativos, ou criar modelos personalizados para textos específicos, classificação de imagens, necessidades de previsão ou IA generativa.

Classificação multiclasse, de regressão e binária com dados tabulares formatados como arquivos CSV ou Parquet, nos quais cada coluna contém um recurso com um tipo de dados específico e cada linha contém uma observação. Os tipos de dados de coluna aceitos incluem séries numéricas, categóricas, de texto e temporais que consistem em sequências de números separados por vírgulas.
- Para criar um trabalho de piloto automático como um experimento piloto usando a referência da SageMaker API, consulteCrie um trabalho de regressão ou classificação para dados tabulares usando a API AutoML.
- Para criar um trabalho de piloto automático como um experimento piloto usando a interface do usuário do Studio Classic, consulteCrie um experimento de piloto automático de regressão ou classificação para dados tabulares usando a interface do usuário do Studio Classic.
- Se você for um administrador que deseja pré-configurar a infraestrutura padrão, a rede ou os parâmetros de segurança dos experimentos do Autopilot na interface do usuário do Studio Classic, consulte. Configurar os parâmetros padrão de um experimento de piloto automático (para administradores)
Classificação de texto com formato de dados como arquivos CSV ou Parquet nos quais uma coluna fornece as frases a serem classificadas, enquanto outra coluna deve fornecer o rótulo da classe correspondente. Consulte Crie uma tarefa AutoML para classificação de texto usando a API.
Classificação de imagens com formatos de imagem como PNG, JPEG ou uma combinação de ambosCrie uma tarefa AutoML para classificação de imagens usando a API. Consulte.
Previsão de séries temporais com dados de séries temporais formatados como arquivos CSV ou Parquet.Consulte. Crie uma tarefa AutoML para previsão de séries temporais usando a API
Ajuste fino de modelos de linguagem grande (LLMs) para geração de texto com dados formatados como arquivos CSV ou Parquet.Consulte. Crie uma tarefa do AutoML para ajustar os modelos de geração de texto usando a API

Além disso, o Autopilot ajuda os usuários a entender como os modelos fazem previsões, gerando relatórios automaticamente que mostram a importância de cada recurso individual. Isso fornece transparência e insights sobre os fatores que influenciam as previsões, que podem ser usados por equipes de risco e conformidade e por reguladores externos. O Autopilot também fornece um relatório de desempenho do modelo que engloba um resumo das métricas de avaliação, uma matriz de confusão, várias visualizações, como curvas características operacionais do receptor e curvas de recuperação de precisão e muito mais. O conteúdo específico de cada relatório varia de acordo com o tipo de problema do experimento do Autopilot.

Os relatórios de explicabilidade e desempenho do melhor candidato a modelo em um experimento de piloto automático estão disponíveis para tipos de problemas de classificação de dados tabulares, de texto e imagem.

Para casos de uso de dados tabulares, como regressão ou classificação, o Autopilot oferece visibilidade adicional sobre como os dados foram organizados e como os candidatos ao modelo foram selecionados, treinados e ajustados por meio da geração de cadernos que contêm o código usado para explorar os dados e encontrar o modelo com melhor desempenho. Esses cadernos fornecem um ambiente interativo e exploratório para ajudar você a aprender sobre o impacto de várias entradas ou as compensações feitas nos experimentos. Você pode experimentar ainda mais com o modelo candidato de maior desempenho fazendo suas próprias modificações nos cadernos de exploração de dados e definição de candidatos fornecidos pelo Autopilot.

Com a Amazon SageMaker, você paga somente pelo que usa. Você paga pelos recursos subjacentes de computação e armazenamento contidos em SageMaker ou em outros AWS serviços, com base no seu uso. Para obter mais informações sobre o custo de uso SageMaker, consulte Amazon SageMaker Pricing.

Tópicos

Atenção O Javascript está desativado ou não está disponível no seu navegador.

Para usar a documentação da AWS, o Javascript deve estar ativado. Consulte as páginas de Ajuda do navegador para obter instruções.

Convenções do documento

Use ML automatizado, sem código ou com baixo código

Crie um trabalho de regressão ou classificação usando a API AutoML