As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.
SageMaker A Amazon fornece um conjunto de algoritmos integrados, modelos pré-treinados e modelos de soluções pré-criados para ajudar cientistas de dados e profissionais de aprendizado de máquina a começar a treinar e implantar modelos de aprendizado de máquina rapidamente. Para alguém que é novato SageMaker, escolher o algoritmo certo para seu caso de uso específico pode ser uma tarefa desafiadora. A tabela a seguir fornece uma rápida folha de dicas que mostra como você pode começar com um exemplo de problema ou caso de uso e encontrar um algoritmo incorporado apropriado oferecido por SageMaker ele que seja válido para esse tipo de problema. Orientações adicionais organizadas por paradigmas de aprendizado (supervisionados e não supervisionados) e domínios de dados importantes (texto e imagens) são fornecidas nas seções a seguir à tabela.
Tabela: Mapeando casos de uso para algoritmos integrados
Exemplos de problemas e casos de uso | Paradigma ou domínio de aprendizado | Tipos de problema | Formato dos dados de entrada | Algoritmos integrados |
---|---|---|---|---|
Aqui estão alguns exemplos dos 15 tipos de problemas que podem ser resolvidos pelos modelos pré-treinados e modelos de solução pré-criados fornecidos por: SageMaker JumpStart Resposta a perguntas: chatbot que gera uma resposta para uma determinada pergunta. Análise de texto: analise textos de modelos específicos de um domínio do setor, como finanças. |
Modelos pré-treinados e modelos de soluções pré-criados |
Classificação de imagens Classificação tabular Regressão tabular Classificação de texto Detecção de objetos Incorporação de texto Perguntas e respostas Classificação de pares de frases Incorporação de imagens Reconhecimento de entidades nomeadas Segmentação de instância Geração de texto Resumo de texto Segmentação semântica Tradução de máquina |
Imagem, texto, tabular | Modelos populares, incluindo Mobilenet, YOLO, Faster R-CNN, BERT, LightGBM e CatBoost Para obter uma lista dos modelos pré-treinados disponíveis, consulte JumpStart Modelos. Para obter uma lista dos modelos de solução predefinidos disponíveis, consulte JumpStart Soluções. |
Preveja se um item pertence a uma categoria: um filtro de spam por e-mail |
Classificação binária/multiclasse |
Tabular |
AutoGluon-Tabular, CatBoost, Algoritmo de Máquinas de fatoração, Algoritmo k-nearest neighbors (k-NN), LightGBM, Algoritmo de Aprendizagem linear, TabTransformer, XGBoost algoritmo com Amazon SageMaker AI |
|
Preveja um valor numérico/contínuo: estime o valor de uma casa |
Regressão |
Tabular |
AutoGluon-Tabular, CatBoost, Algoritmo de Máquinas de fatoração, Algoritmo k-nearest neighbors (k-NN), LightGBM, Algoritmo de Aprendizagem linear, TabTransformer, XGBoost algoritmo com Amazon SageMaker AI |
|
Com base nos dados históricos de um comportamento, preveja o comportamento futuro: preveja as vendas de um novo produto com base nos dados de vendas anteriores. |
Previsão de séries temporais |
Tabular | ||
Melhore a incorporação de dados dos objetos de alta dimensão: identifique tickets de atendimento duplicados ou encontre o roteamento correto com base na similaridade do texto nos tickets |
Incorporações: converta objetos de alta dimensão em espaço de baixa dimensão. | Tabular | Algoritmo Object2Vec | |
Elimine as colunas de um conjunto de dados que têm uma relação fraca com a variável rótulo/alvo: a cor de um carro ao prever sua quilometragem. |
Aprendizado não supervisionado |
Engenharia de atributos: redução de dimensionalidade |
Tabular | |
Detecte comportamento anormal na aplicação: detecte quando um sensor de IoT está enviando leituras anormais |
Detecção de anomalias |
Tabular | ||
Proteja sua aplicação contra usuários suspeitos: detecte se um endereço IP que acessa um serviço pode ser de um agente mal-intencionado |
Detecção de anomalias de IP |
Tabular | ||
Agrupe objetos/dados semelhantes: encontre clientes com gastos altos, médios e baixos em seus históricos de transações |
Cluster ou agrupamento |
Tabular | ||
Organize um conjunto de documentos em tópicos (não conhecidos de antemão): marque um documento como pertencente a uma categoria médica com base nos termos usados no documento. |
Modelagem de tópicos |
Texto |
Algoritmo Latent Dirichlet Allocation (LDA), Algoritmo de Modelo de tópicos neurais (NTM) |
|
Atribua categorias predefinidas a documentos em um corpus: categorize livros em uma biblioteca em disciplinas acadêmicas |
Classificação de texto |
Texto | ||
Converter texto de um idioma para outro: espanhol para inglês |
Tradução de máquina algoritmo |
Texto | ||
Resuma um corpus de texto longo: um resumo para um paper de pesquisa |
Resumo de texto |
Texto | ||
Converta arquivos de áudio em texto: transcreva conversas da central de atendimento para análise posterior |
S peech-to-text |
Texto | ||
Rotular/marcar uma imagem com base no conteúdo da imagem: alertas sobre conteúdo adulto em uma imagem |
Processamento de imagens |
Classificação de imagem e vários rótulos |
Imagem | |
Classifique algo em uma imagem usando o aprendizado por transferência. |
Classificação de imagens | Imagem | ||
Detecte pessoas e objetos em uma imagem: a polícia analisa uma grande galeria de fotos de uma pessoa desaparecida |
Detecção e classificação de objetos |
Imagem |
Detecção de objetos - MXNet, Detecção de objetos - TensorFlow |
|
Marque cada pixel de uma imagem individualmente com uma categoria: carros autônomos se preparam para identificar objetos em seu caminho |
Visão computacional |
Imagem |
Para obter informações importantes sobre os seguintes itens comuns a todos os algoritmos integrados fornecidos pela SageMaker IA, consulteParâmetros para algoritmos integrados.
-
Caminhos de registro Docker
-
formatos de dados
-
tipos de EC2 instância recomendados da Amazon
-
CloudWatch troncos
As seções a seguir fornecem orientações adicionais para os algoritmos integrados de SageMaker IA da Amazon, agrupados pelos paradigmas de aprendizado supervisionado e não supervisionado aos quais eles pertencem. Para obter descrições desses paradigmas de aprendizado e dos tipos de problemas associados, consulte Tipos de Algoritmos. Também são fornecidas seções para os algoritmos integrados de SageMaker IA disponíveis para abordar dois domínios importantes de aprendizado de máquina: análise textual e processamento de imagens.
Modelos pré-treinados e modelos de soluções
SageMaker JumpStart fornece uma ampla variedade de modelos pré-treinados, modelos de soluções pré-criados e exemplos de tipos de problemas populares. Eles usam o SageMaker AI SDK e o Studio Classic. Para obter mais informações sobre esses modelos, soluções e os exemplos de notebooks fornecidos por SageMaker JumpStart, consulteSageMaker JumpStart modelos pré-treinados.
Aprendizado supervisionado
A Amazon SageMaker AI fornece vários algoritmos integrados de uso geral que podem ser usados para problemas de classificação ou regressão.
-
AutoGluon-Tabular: uma estrutura de AutoML de código aberto que é bem-sucedida ao agrupar modelos e empilhá-los em várias camadas.
-
CatBoost: uma implementação do algoritmo de árvores com aumento de gradiente que introduz o aumento ordenado e um algoritmo inovador para processar atributos categóricos.
-
Algoritmo de Máquinas de fatoração: é uma extensão de um modelo linear projetado para capturar, com baixo custo, as interações entre os atributos presentes em conjuntos de dados esparsos altamente dimensionais.
-
Algoritmo k-nearest neighbors (k-NN): um método não paramétrico que usa os pontos k rotulados mais próximos para atribuição de um valor. Para classificação, é um rótulo para um novo ponto de dados. Para regressão, é um valor de destino previsto a partir da média dos pontos k mais próximos.
-
LightGBM: uma implementação do algoritmo de árvores com aumento de gradiente que adiciona duas novas técnicas para melhorar a eficiência e a escalabilidade. Essas duas novas técnicas são a amostragem unilateral baseada em gradiente (GOSS) e empacotamento de atributos exclusivos (EFB).
-
Algoritmo de Aprendizagem linear: aprende uma função linear para regressão ou uma função de limite linear para classificação.
-
TabTransformer—uma nova arquitetura de modelagem de dados tabular profunda baseada em self-attention-based Transformers.
-
XGBoost algoritmo com Amazon SageMaker AI: uma implementação do algoritmo de árvores com aumento de gradiente que combina um conjunto de estimativas a partir de um conjunto de modelos mais simples e menos robustos.
A Amazon SageMaker AI também fornece vários algoritmos de aprendizado supervisionado integrados usados para tarefas mais especializadas durante a engenharia de recursos e a previsão a partir de dados de séries temporais.
-
Algoritmo Object2Vec: um novo algoritmo multiuso altamente personalizável usado para engenharia de atributos. Ele pode aprender incorporações densas de baixa dimensão de objetos de alta dimensão para produzir atributos que melhoram a eficiência do treinamento para modelos posteriores. Embora esse seja um algoritmo supervisionado, há muitos cenários nos quais os rótulos de relacionamento podem ser obtidos puramente a partir de agrupamentos naturais de dados. Embora exija dados rotulados para treinamento, isso pode ocorrer sem qualquer anotação humana explícita.
-
Use o algoritmo de SageMaker previsão AI DeepAR: o algoritmo de aprendizado supervisionado é um algoritmo de aprendizado supervisionado para previsão de séries temporais escalares (unidimensionais) usando redes neurais recorrentes (RNN).
Aprendizado não supervisionado
A Amazon SageMaker AI fornece vários algoritmos integrados que podem ser usados para uma variedade de tarefas de aprendizado não supervisionadas. Essas tarefas incluem clustering, redução de dimensão, reconhecimento de padrões e detecção de anomalias.
-
Algoritmo de Análise de componente principal (PCA): reduz a dimensionalidade (número de atributos) em um conjunto de dados projetando pontos de dados nos primeiros componentes principais. O objetivo é reter o máximo possível de informações ou variações. Para matemáticos, os componentes principais são autovetores da matriz de covariância dos dados.
-
Algoritmo k-means: localiza agrupamentos discretos nos dados. Ocorre quando os membros de um grupo forem o mais similares possível entre eles e o mais diferentes possível dos membros de outros grupos.
-
IP Insights—aprende os padrões de uso dos endereços. IPv4 Ele foi projetado para capturar associações entre IPv4 endereços e várias entidades, como números de usuários IDs ou contas.
-
Algoritmo RCF (Random Cut Forest): detecta pontos de dados anômalos em um conjunto de dados que divergem de dados bem estruturados ou padronizados.
Análise de texto
SageMaker A IA fornece algoritmos personalizados para a análise de documentos textuais. Inclui o texto usado no processamento de linguagem natural, classificação ou resumo de documentos, modelagem ou classificação de tópicos e transcrição ou tradução de idiomas.
-
BlazingText algoritmo: uma implantação altamente otimizada do Word2vec e dos algoritmos de classificação de texto que podem ser facilmente escalados para grandes conjuntos de dados. É útil para muitas tarefas posteriores de processamento de linguagem natural (PLN).
-
Sequence-to-Sequence algoritmo: esse algoritmo supervisionado é comumente usado para tradução de máquina neural.
-
Algoritmo Latent Dirichlet Allocation (LDA): esse algoritmo é adequado para determinar tópicos em um conjunto de documentos. É um algoritmo não supervisionado, o que significa que ele não usa dados de exemplo com respostas durante o treinamento.
-
Algoritmo de Modelo de tópicos neurais (NTM): outra técnica não supervisionada para determinar tópicos em um conjunto de documentos, usando uma abordagem de rede neural.
-
Classificação de texto - TensorFlow: um algoritmo supervisionado que oferece apoio ao aprendizado por transferência com modelos pré-treinados disponíveis para classificação de texto.
Processamento de imagens
SageMaker A IA também fornece algoritmos de processamento de imagem que são usados para classificação de imagens, detecção de objetos e visão computacional.
-
Classificação de imagens - MXNet: usa dados de exemplo com respostas (conhecido como algoritmo supervisionado). Use esse algoritmo para classificar imagens.
-
Classificação de imagens - TensorFlow—usa modelos de TensorFlow Hub pré-treinados para ajustar tarefas específicas (conhecido como algoritmo supervisionado). Use esse algoritmo para classificar imagens.
-
Algoritmo de segmentação semântica: fornece uma abordagem granular em nível de pixel ao desenvolvimento de aplicações de visão computacional.
-
Detecção de objetos - MXNet: detecta e classifica objetos em imagens usando uma única rede neural profunda. Ele é um algoritmo de aprendizado supervisionado que captura imagens como entrada e identifica todas as instâncias de objetos na cena da imagem.
-
Detecção de objetos - TensorFlow: detecta caixas delimitadoras e rótulos de objetos em uma imagem. É um algoritmo de aprendizado supervisionado que oferece suporte ao aprendizado por transferência com os modelos pré-treinados TensorFlow disponíveis.