As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.
Algoritmos integrados e modelos pré-treinados na Amazon SageMaker
SageMaker A Amazon fornece um conjunto de algoritmos integrados, modelos pré-treinados e modelos de soluções pré-criados para ajudar cientistas de dados e profissionais de aprendizado de máquina a começar a treinar e implantar modelos de aprendizado de máquina rapidamente. Para alguém que é novato SageMaker, escolher o algoritmo certo para seu caso de uso específico pode ser uma tarefa desafiadora. A tabela a seguir fornece uma rápida folha de dicas que mostra como você pode começar com um exemplo de problema ou caso de uso e encontrar um algoritmo incorporado apropriado oferecido por SageMaker ele que seja válido para esse tipo de problema. Orientações adicionais organizadas por paradigmas de aprendizagem (supervisionados e não supervisionados) e domínios de dados importantes (texto e imagens) são fornecidas nas seções a seguir à tabela.
Tabela: Mapeando casos de uso para algoritmos integrados
Exemplos de problemas e casos de uso | Paradigma ou domínio de aprendizagem | Tipos de problemas | Formato dos dados de entrada | Algoritmos integrados |
---|---|---|---|---|
Aqui estão alguns exemplos dos 15 tipos de problemas que podem ser resolvidos pelos modelos pré-treinados e modelos de solução pré-criados fornecidos por: SageMaker JumpStart Resposta a perguntas: chatbot que gera uma resposta para uma determinada pergunta. Análise de texto: analise textos de modelos específicos de um domínio do setor, como finanças. |
Modelos pré-treinados e modelos de soluções pré-criados |
Classificação de imagens Classificação tabular Regressão tabular Classificação de texto Detecção de objetos Incorporação de texto Respostas a perguntas Classificação de pares de frases Incorporação de imagens Reconhecimento de entidades nomeadas Segmentação de instância Geração de texto Sumarização de texto Segmentação de semântica Tradução de máquina |
Imagem, texto, tabular | Modelos populares, incluindo MobilenetYOLO, Faster R- CNNBERT, light GBM e CatBoost Para obter uma lista dos modelos pré-treinados disponíveis, consulte JumpStart Modelos. Para obter uma lista dos modelos de solução predefinidos disponíveis, consulte JumpStart Soluções. |
Preveja se um item pertence a uma categoria: um filtro de spam por e-mail |
Classificação binária/multiclasse |
Tabular |
AutoGluon-Tabular, CatBoost, Algoritmo de Máquinas de fatoração, Algoritmo k-nearest neighbors (k-NN), Luz GBM, Algoritmo de Aprendizagem linear, TabTransformer, XGBoostalgoritmo com a Amazon SageMaker |
|
Preveja um valor numérico/contínuo: estime o valor de uma casa |
Regressão |
Tabular |
AutoGluon-Tabular, CatBoost, Algoritmo de Máquinas de fatoração, Algoritmo k-nearest neighbors (k-NN), Luz GBM, Algoritmo de Aprendizagem linear, TabTransformer, XGBoostalgoritmo com a Amazon SageMaker |
|
Com base nos dados históricos de um comportamento, preveja o comportamento futuro: preveja as vendas de um novo produto com base nos dados de vendas anteriores. |
Previsão de séries temporais |
Tabular | ||
Melhore a incorporação de dados dos objetos de alta dimensão: identifique tickets de suporte duplicados ou encontre o roteamento correto com base na similaridade do texto nos tickets |
Incorporações: converta objetos de alta dimensão em espaço de baixa dimensão. | Tabular | Algoritmo Object2Vec | |
Elimine as colunas de um conjunto de dados que têm uma relação fraca com a variável rótulo/alvo: a cor de um carro ao prever sua quilometragem. |
Aprendizado não supervisionado |
Engenharia de atributos: redução de dimensionalidade |
Tabular | |
Detecte comportamento anormal na aplicação: detecte quando um sensor de IoT está enviando leituras anormais |
Detecção de anomalias |
Tabular | ||
Proteja seu aplicativo contra usuários suspeitos: detecte se um endereço IP que acessa um serviço pode ser de um agente mal-intencionado |
Detecção de anomalias de IP |
Tabular | ||
Agrupe objetos/dados semelhantes: encontre clientes com gastos altos, médios e baixos em seus históricos de transações |
Cluster ou agrupamento |
Tabular | ||
Organize um conjunto de documentos em tópicos (não conhecidos de antemão): marque um documento como pertencente a uma categoria médica com base nos termos usados no documento. |
Modelagem de tópicos |
Texto |
Algoritmo Latent Dirichlet Allocation (LDA), Algoritmo Neural Topic Model (NTM) |
|
Atribua categorias predefinidas a documentos em um corpus: categorize livros em uma biblioteca em disciplinas acadêmicas |
Classificação de texto |
Texto | ||
Converter texto de um idioma para outro: espanhol para inglês |
Tradução de máquina algoritmo |
Texto | ||
Resuma um corpus de texto longo: um resumo para um paper de pesquisa |
Resumo de texto |
Texto | ||
Converta arquivos de áudio em texto: transcreva conversas da central de atendimento para análise posterior |
S peech-to-text |
Texto | ||
Rotular/marcar uma imagem com base no conteúdo da imagem: alertas sobre conteúdo adulto em uma imagem |
Processamento de imagens |
Classificação de imagem e vários rótulos |
Imagem | |
Classifique algo em uma imagem usando o aprendizado por transferência. |
Classificação de imagens | Imagem | ||
Detecte pessoas e objetos em uma imagem: a polícia analisa uma grande galeria de fotos de uma pessoa desaparecida |
Detecção e classificação de objetos |
Imagem |
Detecção de objetos - MXNet, Detecção de objetos - TensorFlow |
|
Marque cada pixel de uma imagem individualmente com uma categoria: carros autônomos se preparam para identificar objetos em seu caminho |
Visão computacional |
Imagem |
Para obter informações importantes sobre os seguintes itens comuns a todos os algoritmos integrados fornecidos pelo SageMaker, consulteParâmetros para algoritmos integrados.
-
Caminhos de registro do Docker
-
formatos de dados
-
tipos de EC2 instância recomendados da Amazon
-
CloudWatch troncos
As seções a seguir fornecem orientação adicional para os algoritmos SageMaker integrados da Amazon agrupados pelos paradigmas de aprendizado supervisionado e não supervisionado aos quais eles pertencem. Para obter descrições desses paradigmas de aprendizagem e dos tipos de problemas associados, consulte Tipos de algoritmos. Também são fornecidas seções para os algoritmos SageMaker integrados disponíveis para abordar dois domínios importantes de aprendizado de máquina: análise textual e processamento de imagens.
Modelos pré-treinados e modelos de soluções
SageMaker JumpStart fornece uma ampla variedade de modelos pré-treinados, modelos de soluções pré-criados e exemplos de tipos de problemas populares. Eles usam o SageMaker SDK, bem como o Studio Classic. Para obter mais informações sobre esses modelos, soluções e os exemplos de notebooks fornecidos por SageMaker JumpStart, consulteSageMaker JumpStart modelos pré-treinados.
Aprendizado supervisionado
SageMaker A Amazon fornece vários algoritmos integrados de uso geral que podem ser usados para problemas de classificação ou regressão.
-
AutoGluon-Tabular: uma estrutura de AutoML de código aberto que é bem-sucedida ao agrupar modelos e empilhá-los em várias camadas.
-
CatBoost: uma implementação do algoritmo de árvores com aumento de gradiente que introduz o aumento ordenado e um algoritmo inovador para processar características categóricas.
-
Algoritmo de Máquinas de fatoração: é uma extensão de um modelo linear projetado para capturar, com baixo custo, as interações entre os atributos presentes em conjuntos de dados esparsos altamente dimensionais.
-
Algoritmo k-nearest neighbors (k-NN)—um método não paramétrico que usa os k pontos rotulados mais próximos para atribuir um valor. Para classificação, é um rótulo para um novo ponto de dados. Para regressão, é um valor alvo previsto a partir da média dos k pontos mais próximos.
-
Luz GBM—uma implementação do algoritmo de árvores com aumento de gradiente que adiciona duas novas técnicas para melhorar a eficiência e a escalabilidade. Essas duas novas técnicas são a amostragem de um lado baseada em gradiente (GOSS) e o agrupamento de recursos exclusivos (). EFB
-
Algoritmo de Aprendizagem linear: aprende uma função linear para regressão ou uma função de limite linear para classificação.
-
TabTransformer—uma nova arquitetura de modelagem de dados tabular profunda baseada em self-attention-based Transformers.
-
XGBoostalgoritmo com a Amazon SageMaker: uma implementação do algoritmo de árvores com aumento de gradiente que combina um conjunto de estimativas a partir de um conjunto de modelos mais simples e menos robustos.
A Amazon SageMaker também fornece vários algoritmos de aprendizado supervisionado integrados usados para tarefas mais especializadas durante a engenharia de recursos e a previsão a partir de dados de séries temporais.
-
Algoritmo Object2Vec—um novo algoritmo multiuso altamente personalizável usado para engenharia de atributos. Ele pode aprender incorporações densas de baixa dimensão de objetos de alta dimensão para produzir atributos que melhoram a eficiência do treinamento para modelos posteriores. Embora esse seja um algoritmo supervisionado, há muitos cenários nos quais os rótulos de relacionamento podem ser obtidos exclusivamente a partir de agrupamentos naturais em dados. Embora exija dados rotulados para treinamento, isso pode ocorrer sem qualquer anotação humana explícita.
-
Use o algoritmo de SageMaker previsão DeepAR—um algoritmo de aprendizado supervisionado para prever séries temporais escalares (unidimensionais) usando redes neurais recorrentes (). RNN
Aprendizado não supervisionado
SageMaker A Amazon fornece vários algoritmos integrados que podem ser usados para uma variedade de tarefas de aprendizado não supervisionadas. Essas tarefas incluem agrupamento, redução de dimensões, reconhecimento de padrões e detecção de anomalias.
-
Algoritmo de análise de componentes principais (PCA)—reduz a dimensionalidade (número de atributos) em um conjunto de dados projetando pontos de dados nos primeiros componentes principais. O objetivo é reter o máximo possível de informações ou variações. Para matemáticos, os componentes principais são autovetores da matriz de covariância dos dados.
-
Algoritmo k-means—localiza agrupamentos discretos nos dados. Isso ocorre quando os membros de um grupo são tão semelhantes quanto possível entre si e tão diferentes quanto possível dos membros de outros grupos.
-
IP Insights—aprende os padrões de uso dos endereços. IPv4 Ele foi projetado para capturar associações entre IPv4 endereços e várias entidades, como números de usuários IDs ou contas.
-
Algoritmo Random Cut Forest (RCF)—detecta pontos de dados anômalos em um conjunto de dados que divergem de dados bem estruturados ou padronizados.
Análise textual
SageMaker fornece algoritmos personalizados para a análise de documentos textuais. Isso inclui texto usado no processamento de linguagem natural, classificação ou resumo de documentos, modelagem ou classificação de tópicos e transcrição ou tradução de idiomas.
-
BlazingText algoritmo: uma implantação altamente otimizada do Word2vec e dos algoritmos de classificação de texto que podem ser facilmente escalados para grandes conjuntos de dados. É útil para muitas tarefas posteriores de processamento de linguagem natural (NLP).
-
Sequence-to-Sequence algoritmo—esse algoritmo supervisionado é comumente usado para tradução de máquina neural.
-
Algoritmo Latent Dirichlet Allocation (LDA)—esse algoritmo é adequado para determinar tópicos em um conjunto de documentos. É um algoritmo não supervisionado, o que significa que ele não usa dados de exemplo com respostas durante o treinamento.
-
Algoritmo Neural Topic Model (NTM)—outra técnica não supervisionada para determinar tópicos em um conjunto de documentos, usando uma abordagem de rede neural.
-
Classificação de texto - TensorFlow—um algoritmo supervisionado que oferece suporte ao aprendizado por transferência com modelos pré-treinados disponíveis para classificação de texto.
Processamento de imagens
SageMaker também fornece algoritmos de processamento de imagem que são usados para classificação de imagens, detecção de objetos e visão computacional.
-
Classificação de imagens - MXNet: usa dados de exemplo com respostas (conhecido como algoritmo supervisionado). Use esse algoritmo para classificar imagens.
-
Classificação de imagens - TensorFlow—usa modelos de TensorFlow Hub pré-treinados para ajustar tarefas específicas (conhecido como algoritmo supervisionado). Use esse algoritmo para classificar imagens.
-
Algoritmo de segmentação semântica—fornece uma abordagem granular em nível de pixel ao desenvolvimento de aplicativos de visão computacional.
-
Detecção de objetos - MXNet—detecta e classifica objetos em imagens usando uma única rede neural profunda. Ele é um algoritmo de aprendizagem supervisionada que captura imagens como entrada e identifica todas as instâncias de objetos na cena da imagem.
-
Detecção de objetos - TensorFlow: detecta caixas delimitadoras e rótulos de objetos em uma imagem. É um algoritmo de aprendizado supervisionado que oferece suporte ao aprendizado por transferência com modelos pré-treinados TensorFlow disponíveis.
Tópicos
- Parâmetros para algoritmos integrados
- SageMaker Algoritmos integrados para dados tabulares
- SageMaker Algoritmos integrados para dados de texto
- SageMaker Algoritmos integrados para dados de séries temporais
- Algoritmos integrados não supervisionados SageMaker
- SageMaker Algoritmos integrados para visão computacional