Algoritmos integrados e modelos pré-treinados na Amazon SageMaker - Amazon SageMaker

As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.

Algoritmos integrados e modelos pré-treinados na Amazon SageMaker

SageMaker A Amazon fornece um conjunto de algoritmos integrados, modelos pré-treinados e modelos de soluções pré-criados para ajudar cientistas de dados e profissionais de aprendizado de máquina a começar a treinar e implantar modelos de aprendizado de máquina rapidamente. Para alguém que é novato SageMaker, escolher o algoritmo certo para seu caso de uso específico pode ser uma tarefa desafiadora. A tabela a seguir fornece uma rápida folha de dicas que mostra como você pode começar com um exemplo de problema ou caso de uso e encontrar um algoritmo incorporado apropriado oferecido por SageMaker ele que seja válido para esse tipo de problema. Orientações adicionais organizadas por paradigmas de aprendizagem (supervisionados e não supervisionados) e domínios de dados importantes (texto e imagens) são fornecidas nas seções a seguir à tabela.

Tabela: Mapeando casos de uso para algoritmos integrados

Exemplos de problemas e casos de uso Paradigma ou domínio de aprendizagem Tipos de problemas Formato dos dados de entrada Algoritmos integrados

Aqui estão alguns exemplos dos 15 tipos de problemas que podem ser resolvidos pelos modelos pré-treinados e modelos de solução pré-criados fornecidos por: SageMaker JumpStart

Resposta a perguntas: chatbot que gera uma resposta para uma determinada pergunta.

Análise de texto: analise textos de modelos específicos de um domínio do setor, como finanças.

Modelos pré-treinados e modelos de soluções pré-criados

Classificação de imagens

Classificação tabular

Regressão tabular

Classificação de texto

Detecção de objetos

Incorporação de texto

Respostas a perguntas

Classificação de pares de frases

Incorporação de imagens

Reconhecimento de entidades nomeadas

Segmentação de instância

Geração de texto

Sumarização de texto

Segmentação de semântica

Tradução de máquina

Imagem, texto, tabular

Modelos populares, incluindo MobilenetYOLO, Faster R- CNNBERT, light GBM e CatBoost

Para obter uma lista dos modelos pré-treinados disponíveis, consulte JumpStart Modelos.

Para obter uma lista dos modelos de solução predefinidos disponíveis, consulte JumpStart Soluções.

Preveja se um item pertence a uma categoria: um filtro de spam por e-mail

Aprendizado supervisionado

Classificação binária/multiclasse

Tabular

AutoGluon-Tabular, CatBoost, Algoritmo de Máquinas de fatoração, Algoritmo k-nearest neighbors (k-NN), Luz GBM, Algoritmo de Aprendizagem linear, TabTransformer, XGBoostalgoritmo com a Amazon SageMaker

Preveja um valor numérico/contínuo: estime o valor de uma casa

Regressão

Tabular

AutoGluon-Tabular, CatBoost, Algoritmo de Máquinas de fatoração, Algoritmo k-nearest neighbors (k-NN), Luz GBM, Algoritmo de Aprendizagem linear, TabTransformer, XGBoostalgoritmo com a Amazon SageMaker

Com base nos dados históricos de um comportamento, preveja o comportamento futuro: preveja as vendas de um novo produto com base nos dados de vendas anteriores.

Previsão de séries temporais

Tabular

Use o algoritmo de SageMaker previsão DeepAR

Melhore a incorporação de dados dos objetos de alta dimensão: identifique tickets de suporte duplicados ou encontre o roteamento correto com base na similaridade do texto nos tickets

Incorporações: converta objetos de alta dimensão em espaço de baixa dimensão. Tabular Algoritmo Object2Vec

Elimine as colunas de um conjunto de dados que têm uma relação fraca com a variável rótulo/alvo: a cor de um carro ao prever sua quilometragem.

Aprendizado não supervisionado

Engenharia de atributos: redução de dimensionalidade

Tabular

Algoritmo de análise de componentes principais (PCA)

Detecte comportamento anormal na aplicação: detecte quando um sensor de IoT está enviando leituras anormais

Detecção de anomalias

Tabular

Algoritmo Random Cut Forest (RCF)

Proteja seu aplicativo contra usuários suspeitos: detecte se um endereço IP que acessa um serviço pode ser de um agente mal-intencionado

Detecção de anomalias de IP

Tabular

IP Insights

Agrupe objetos/dados semelhantes: encontre clientes com gastos altos, médios e baixos em seus históricos de transações

Cluster ou agrupamento

Tabular

Algoritmo k-means

Organize um conjunto de documentos em tópicos (não conhecidos de antemão): marque um documento como pertencente a uma categoria médica com base nos termos usados no documento.

Modelagem de tópicos

Texto

Algoritmo Latent Dirichlet Allocation (LDA), Algoritmo Neural Topic Model (NTM)

Atribua categorias predefinidas a documentos em um corpus: categorize livros em uma biblioteca em disciplinas acadêmicas

Análise textual

Classificação de texto

Texto

BlazingText algoritmo, Classificação de texto - TensorFlow

Converter texto de um idioma para outro: espanhol para inglês

Tradução de máquina

algoritmo
Texto

Sequence-to-Sequence algoritmo

Resuma um corpus de texto longo: um resumo para um paper de pesquisa

Resumo de texto

Texto

Sequence-to-Sequence algoritmo

Converta arquivos de áudio em texto: transcreva conversas da central de atendimento para análise posterior

S peech-to-text

Texto

Sequence-to-Sequence algoritmo

Rotular/marcar uma imagem com base no conteúdo da imagem: alertas sobre conteúdo adulto em uma imagem

Processamento de imagens

Classificação de imagem e vários rótulos

Imagem

Classificação de imagens - MXNet

Classifique algo em uma imagem usando o aprendizado por transferência.

Classificação de imagens Imagem

Classificação de imagens - TensorFlow

Detecte pessoas e objetos em uma imagem: a polícia analisa uma grande galeria de fotos de uma pessoa desaparecida

Detecção e classificação de objetos

Imagem

Detecção de objetos - MXNet, Detecção de objetos - TensorFlow

Marque cada pixel de uma imagem individualmente com uma categoria: carros autônomos se preparam para identificar objetos em seu caminho

Visão computacional

Imagem

Algoritmo de segmentação semântica

Para obter informações importantes sobre os seguintes itens comuns a todos os algoritmos integrados fornecidos pelo SageMaker, consulteParâmetros para algoritmos integrados.

  • Caminhos de registro do Docker

  • formatos de dados

  • tipos de EC2 instância recomendados da Amazon

  • CloudWatch troncos

As seções a seguir fornecem orientação adicional para os algoritmos SageMaker integrados da Amazon agrupados pelos paradigmas de aprendizado supervisionado e não supervisionado aos quais eles pertencem. Para obter descrições desses paradigmas de aprendizagem e dos tipos de problemas associados, consulte Tipos de algoritmos. Também são fornecidas seções para os algoritmos SageMaker integrados disponíveis para abordar dois domínios importantes de aprendizado de máquina: análise textual e processamento de imagens.

Modelos pré-treinados e modelos de soluções

SageMaker JumpStart fornece uma ampla variedade de modelos pré-treinados, modelos de soluções pré-criados e exemplos de tipos de problemas populares. Eles usam o SageMaker SDK, bem como o Studio Classic. Para obter mais informações sobre esses modelos, soluções e os exemplos de notebooks fornecidos por SageMaker JumpStart, consulteSageMaker JumpStart modelos pré-treinados.

Aprendizado supervisionado

SageMaker A Amazon fornece vários algoritmos integrados de uso geral que podem ser usados para problemas de classificação ou regressão.

  • AutoGluon-Tabular: uma estrutura de AutoML de código aberto que é bem-sucedida ao agrupar modelos e empilhá-los em várias camadas.

  • CatBoost: uma implementação do algoritmo de árvores com aumento de gradiente que introduz o aumento ordenado e um algoritmo inovador para processar características categóricas.

  • Algoritmo de Máquinas de fatoração: é uma extensão de um modelo linear projetado para capturar, com baixo custo, as interações entre os atributos presentes em conjuntos de dados esparsos altamente dimensionais.

  • Algoritmo k-nearest neighbors (k-NN)—um método não paramétrico que usa os k pontos rotulados mais próximos para atribuir um valor. Para classificação, é um rótulo para um novo ponto de dados. Para regressão, é um valor alvo previsto a partir da média dos k pontos mais próximos.

  • Luz GBM—uma implementação do algoritmo de árvores com aumento de gradiente que adiciona duas novas técnicas para melhorar a eficiência e a escalabilidade. Essas duas novas técnicas são a amostragem de um lado baseada em gradiente (GOSS) e o agrupamento de recursos exclusivos (). EFB

  • Algoritmo de Aprendizagem linear: aprende uma função linear para regressão ou uma função de limite linear para classificação.

  • TabTransformer—uma nova arquitetura de modelagem de dados tabular profunda baseada em self-attention-based Transformers.

  • XGBoostalgoritmo com a Amazon SageMaker: uma implementação do algoritmo de árvores com aumento de gradiente que combina um conjunto de estimativas a partir de um conjunto de modelos mais simples e menos robustos.

A Amazon SageMaker também fornece vários algoritmos de aprendizado supervisionado integrados usados para tarefas mais especializadas durante a engenharia de recursos e a previsão a partir de dados de séries temporais.

  • Algoritmo Object2Vec—um novo algoritmo multiuso altamente personalizável usado para engenharia de atributos. Ele pode aprender incorporações densas de baixa dimensão de objetos de alta dimensão para produzir atributos que melhoram a eficiência do treinamento para modelos posteriores. Embora esse seja um algoritmo supervisionado, há muitos cenários nos quais os rótulos de relacionamento podem ser obtidos exclusivamente a partir de agrupamentos naturais em dados. Embora exija dados rotulados para treinamento, isso pode ocorrer sem qualquer anotação humana explícita.

  • Use o algoritmo de SageMaker previsão DeepAR—um algoritmo de aprendizado supervisionado para prever séries temporais escalares (unidimensionais) usando redes neurais recorrentes (). RNN

Aprendizado não supervisionado

SageMaker A Amazon fornece vários algoritmos integrados que podem ser usados para uma variedade de tarefas de aprendizado não supervisionadas. Essas tarefas incluem agrupamento, redução de dimensões, reconhecimento de padrões e detecção de anomalias.

  • Algoritmo de análise de componentes principais (PCA)—reduz a dimensionalidade (número de atributos) em um conjunto de dados projetando pontos de dados nos primeiros componentes principais. O objetivo é reter o máximo possível de informações ou variações. Para matemáticos, os componentes principais são autovetores da matriz de covariância dos dados.

  • Algoritmo k-means—localiza agrupamentos discretos nos dados. Isso ocorre quando os membros de um grupo são tão semelhantes quanto possível entre si e tão diferentes quanto possível dos membros de outros grupos.

  • IP Insights—aprende os padrões de uso dos endereços. IPv4 Ele foi projetado para capturar associações entre IPv4 endereços e várias entidades, como números de usuários IDs ou contas.

  • Algoritmo Random Cut Forest (RCF)—detecta pontos de dados anômalos em um conjunto de dados que divergem de dados bem estruturados ou padronizados.

Análise textual

SageMaker fornece algoritmos personalizados para a análise de documentos textuais. Isso inclui texto usado no processamento de linguagem natural, classificação ou resumo de documentos, modelagem ou classificação de tópicos e transcrição ou tradução de idiomas.

  • BlazingText algoritmo: uma implantação altamente otimizada do Word2vec e dos algoritmos de classificação de texto que podem ser facilmente escalados para grandes conjuntos de dados. É útil para muitas tarefas posteriores de processamento de linguagem natural (NLP).

  • Sequence-to-Sequence algoritmo—esse algoritmo supervisionado é comumente usado para tradução de máquina neural.

  • Algoritmo Latent Dirichlet Allocation (LDA)—esse algoritmo é adequado para determinar tópicos em um conjunto de documentos. É um algoritmo não supervisionado, o que significa que ele não usa dados de exemplo com respostas durante o treinamento.

  • Algoritmo Neural Topic Model (NTM)—outra técnica não supervisionada para determinar tópicos em um conjunto de documentos, usando uma abordagem de rede neural.

  • Classificação de texto - TensorFlow—um algoritmo supervisionado que oferece suporte ao aprendizado por transferência com modelos pré-treinados disponíveis para classificação de texto.

Processamento de imagens

SageMaker também fornece algoritmos de processamento de imagem que são usados para classificação de imagens, detecção de objetos e visão computacional.

  • Classificação de imagens - MXNet: usa dados de exemplo com respostas (conhecido como algoritmo supervisionado). Use esse algoritmo para classificar imagens.

  • Classificação de imagens - TensorFlow—usa modelos de TensorFlow Hub pré-treinados para ajustar tarefas específicas (conhecido como algoritmo supervisionado). Use esse algoritmo para classificar imagens.

  • Algoritmo de segmentação semântica—fornece uma abordagem granular em nível de pixel ao desenvolvimento de aplicativos de visão computacional.

  • Detecção de objetos - MXNet—detecta e classifica objetos em imagens usando uma única rede neural profunda. Ele é um algoritmo de aprendizagem supervisionada que captura imagens como entrada e identifica todas as instâncias de objetos na cena da imagem.

  • Detecção de objetos - TensorFlow: detecta caixas delimitadoras e rótulos de objetos em uma imagem. É um algoritmo de aprendizado supervisionado que oferece suporte ao aprendizado por transferência com modelos pré-treinados TensorFlow disponíveis.