JumpStart modelos e modelos de soluções Algoritmos de aprendizado supervisionado Aprendizado não supervisionado Análise de texto Processamento de imagens

Algoritmos integrados e modelos pré-treinados na Amazon SageMaker

SageMaker A Amazon fornece um conjunto de algoritmos integrados, modelos pré-treinados e modelos de soluções pré-criados para ajudar cientistas de dados e profissionais de aprendizado de máquina a começar a treinar e implantar modelos de aprendizado de máquina rapidamente. Para alguém que é novato SageMaker, escolher o algoritmo certo para seu caso de uso específico pode ser uma tarefa desafiadora. A tabela a seguir fornece uma rápida folha de dicas que mostra como você pode começar com um exemplo de problema ou caso de uso e encontrar um algoritmo incorporado apropriado oferecido por SageMaker ele que seja válido para esse tipo de problema. Orientações adicionais organizadas por paradigmas de aprendizado (supervisionados e não supervisionados) e domínios de dados importantes (texto e imagens) são fornecidas nas seções a seguir à tabela.

Tabela: Mapeando casos de uso para algoritmos integrados

Exemplos de problemas e casos de uso	Paradigma ou domínio de aprendizado	Tipos de problema	Formato dos dados de entrada	Algoritmos integrados
Aqui estão alguns exemplos dos 15 tipos de problemas que podem ser resolvidos pelos modelos pré-treinados e modelos de solução pré-criados fornecidos por: SageMaker JumpStart Resposta a perguntas: chatbot que gera uma resposta para uma determinada pergunta. Análise de texto: analise textos de modelos específicos de um domínio do setor, como finanças.	Modelos pré-treinados e modelos de soluções pré-criados	Classificação de imagens Classificação tabular Regressão tabular Classificação de texto Detecção de objetos Incorporação de texto Perguntas e respostas Classificação de pares de frases Incorporação de imagens Reconhecimento de entidades nomeadas Segmentação de instância Geração de texto Resumo de texto Segmentação semântica Tradução de máquina	Imagem, texto, tabular	Modelos populares, incluindo Mobilenet, YOLO, Faster R-CNN, BERT, LightGBM e CatBoost Para obter uma lista dos modelos pré-treinados disponíveis, consulte JumpStart Modelos. Para obter uma lista dos modelos de solução predefinidos disponíveis, consulte JumpStart Soluções.
Preveja se um item pertence a uma categoria: um filtro de spam por e-mail	Aprendizado supervisionado	Classificação binária/multiclasse	Tabular	AutoGluon-Tabular, CatBoost, Algoritmo de Máquinas de fatoração, Algoritmo k-nearest neighbors (k-NN), LightGBM, Algoritmo de Aprendizagem linear, TabTransformer, XGBoost algoritmo com Amazon SageMaker AI
Preveja um numeric/continuous valor: estime o valor de uma casa		Regressão	Tabular	AutoGluon-Tabular, CatBoost, Algoritmo de Máquinas de fatoração, Algoritmo k-nearest neighbors (k-NN), LightGBM, Algoritmo de Aprendizagem linear, TabTransformer, XGBoost algoritmo com Amazon SageMaker AI
Com base nos dados históricos de um comportamento, preveja o comportamento futuro: preveja as vendas de um novo produto com base nos dados de vendas anteriores.		Previsão de séries temporais	Tabular	Use o algoritmo de SageMaker previsão AI DeepAR
Melhore a incorporação de dados dos objetos de alta dimensão: identifique tickets de atendimento duplicados ou encontre o roteamento correto com base na similaridade do texto nos tickets		Incorporações: converta objetos de alta dimensão em espaço de baixa dimensão.	Tabular	Algoritmo Object2Vec
Elimine essas colunas de um conjunto de dados que têm uma relação fraca com a label/target variável: a cor de um carro ao prever sua quilometragem.	Aprendizado não supervisionado	Engenharia de atributos: redução de dimensionalidade	Tabular	Algoritmo de Análise de componente principal (PCA)
Detecte comportamento anormal na aplicação: detecte quando um sensor de IoT está enviando leituras anormais		Detecção de anomalias	Tabular	Algoritmo RCF (Random Cut Forest)
Proteja sua aplicação contra usuários suspeitos: detecte se um endereço IP que acessa um serviço pode ser de um agente mal-intencionado		Detecção de anomalias de IP	Tabular	IP Insights
Agrupe similares: encontre clientes objects/data com gastos altos, médios e baixos a partir de seus históricos de transações		Cluster ou agrupamento	Tabular	Algoritmo k-means
Organize um conjunto de documentos em tópicos (não conhecidos de antemão): marque um documento como pertencente a uma categoria médica com base nos termos usados no documento.		Modelagem de tópicos	Texto	Algoritmo Latent Dirichlet Allocation (LDA), Algoritmo de Modelo de tópicos neurais (NTM)
Atribua categorias predefinidas a documentos em um corpus: categorize livros em uma biblioteca em disciplinas acadêmicas	Análise de texto	Classificação de texto	Texto	BlazingText algoritmo, Classificação de texto - TensorFlow
Converter texto de um idioma para outro: espanhol para inglês		Tradução de máquina algoritmo	Texto	Sequence-to-Sequence algoritmo
Resuma um corpus de texto longo: um resumo para um paper de pesquisa		Resumo de texto	Texto	Sequence-to-Sequence algoritmo
Converta arquivos de áudio em texto: transcreva conversas da central de atendimento para análise posterior		S peech-to-text	Texto	Sequence-to-Sequence algoritmo
Rotular/marcar uma imagem com base no conteúdo da imagem: alertas sobre conteúdo adulto em uma imagem	Processamento de imagens	Classificação de imagem e vários rótulos	Imagem	Classificação de imagens - MXNet
Classifique algo em uma imagem usando o aprendizado por transferência.		Classificação de imagens	Imagem	Classificação de imagens - TensorFlow
Detecte pessoas e objetos em uma imagem: a polícia analisa uma grande galeria de fotos de uma pessoa desaparecida		Detecção e classificação de objetos	Imagem	Detecção de objetos - MXNet, Detecção de objetos - TensorFlow
Marque cada pixel de uma imagem individualmente com uma categoria: carros autônomos se preparam para identificar objetos em seu caminho		Visão computacional	Imagem	Algoritmo de segmentação semântica

Para obter informações importantes sobre os seguintes itens comuns a todos os algoritmos integrados fornecidos pela SageMaker IA, consulteParâmetros para algoritmos integrados.

Caminhos de registro Docker
formatos de dados
tipos de EC2 instância recomendados da Amazon
CloudWatch troncos

As seções a seguir fornecem orientações adicionais para os algoritmos integrados de SageMaker IA da Amazon, agrupados pelos paradigmas de aprendizado supervisionado e não supervisionado aos quais eles pertencem. Para obter descrições desses paradigmas de aprendizado e dos tipos de problemas associados, consulte Tipos de Algoritmos. Também são fornecidas seções para os algoritmos integrados de SageMaker IA disponíveis para abordar dois domínios importantes de aprendizado de máquina: análise textual e processamento de imagens.

Modelos pré-treinados e modelos de soluções
Aprendizado supervisionado
Aprendizado não supervisionado
Análise de texto
Processamento de imagens

Modelos pré-treinados e modelos de soluções

SageMaker JumpStart fornece uma ampla variedade de modelos pré-treinados, modelos de soluções pré-criados e exemplos de tipos de problemas populares. Eles usam o SageMaker SDK e o Studio Classic. Para obter mais informações sobre esses modelos, soluções e os exemplos de notebooks fornecidos por SageMaker JumpStart, consulteSageMaker JumpStart modelos pré-treinados.

Aprendizado supervisionado

A Amazon SageMaker AI fornece vários algoritmos integrados de uso geral que podem ser usados para problemas de classificação ou regressão.

AutoGluon-Tabular: uma estrutura de AutoML de código aberto que é bem-sucedida ao agrupar modelos e empilhá-los em várias camadas.
CatBoost: uma implementação do algoritmo de árvores com aumento de gradiente que introduz o aumento ordenado e um algoritmo inovador para processar atributos categóricos.
Algoritmo de Máquinas de fatoração: é uma extensão de um modelo linear projetado para capturar, com baixo custo, as interações entre os atributos presentes em conjuntos de dados esparsos altamente dimensionais.
Algoritmo k-nearest neighbors (k-NN): um método não paramétrico que usa os pontos k rotulados mais próximos para atribuição de um valor. Para classificação, é um rótulo para um novo ponto de dados. Para regressão, é um valor de destino previsto a partir da média dos pontos k mais próximos.
LightGBM: uma implementação do algoritmo de árvores com aumento de gradiente que adiciona duas novas técnicas para melhorar a eficiência e a escalabilidade. Essas duas novas técnicas são a amostragem unilateral baseada em gradiente (GOSS) e empacotamento de atributos exclusivos (EFB).
Algoritmo de Aprendizagem linear: aprende uma função linear para regressão ou uma função de limite linear para classificação.
TabTransformer—uma nova arquitetura de modelagem de dados tabular profunda baseada em self-attention-based Transformers.
XGBoost algoritmo com Amazon SageMaker AI: uma implementação do algoritmo de árvores com aumento de gradiente que combina um conjunto de estimativas a partir de um conjunto de modelos mais simples e menos robustos.

A Amazon SageMaker AI também fornece vários algoritmos de aprendizado supervisionado integrados usados para tarefas mais especializadas durante a engenharia de recursos e a previsão a partir de dados de séries temporais.

Algoritmo Object2Vec: um novo algoritmo multiuso altamente personalizável usado para engenharia de atributos. Ele pode aprender incorporações densas de baixa dimensão de objetos de alta dimensão para produzir atributos que melhoram a eficiência do treinamento para modelos posteriores. Embora esse seja um algoritmo supervisionado, há muitos cenários nos quais os rótulos de relacionamento podem ser obtidos puramente a partir de agrupamentos naturais de dados. Embora exija dados rotulados para treinamento, isso pode ocorrer sem qualquer anotação humana explícita.
Use o algoritmo de SageMaker previsão AI DeepAR: o algoritmo de aprendizado supervisionado é um algoritmo de aprendizado supervisionado para previsão de séries temporais escalares (unidimensionais) usando redes neurais recorrentes (RNN).

Aprendizado não supervisionado

A Amazon SageMaker AI fornece vários algoritmos integrados que podem ser usados para uma variedade de tarefas de aprendizado não supervisionadas. Essas tarefas incluem clustering, redução de dimensão, reconhecimento de padrões e detecção de anomalias.

Algoritmo de Análise de componente principal (PCA): reduz a dimensionalidade (número de atributos) em um conjunto de dados projetando pontos de dados nos primeiros componentes principais. O objetivo é reter o máximo possível de informações ou variações. Para matemáticos, os componentes principais são autovetores da matriz de covariância dos dados.
Algoritmo k-means: localiza agrupamentos discretos nos dados. Ocorre quando os membros de um grupo forem o mais similares possível entre eles e o mais diferentes possível dos membros de outros grupos.
IP Insights—aprende os padrões de uso dos endereços. IPv4 Ele foi projetado para capturar associações entre IPv4 endereços e várias entidades, como números de usuários IDs ou contas.
Algoritmo RCF (Random Cut Forest): detecta pontos de dados anômalos em um conjunto de dados que divergem de dados bem estruturados ou padronizados.

Análise de texto

SageMaker A IA fornece algoritmos personalizados para a análise de documentos textuais. Inclui o texto usado no processamento de linguagem natural, classificação ou resumo de documentos, modelagem ou classificação de tópicos e transcrição ou tradução de idiomas.

BlazingText algoritmo: uma implantação altamente otimizada do Word2vec e dos algoritmos de classificação de texto que podem ser facilmente escalados para grandes conjuntos de dados. É útil para muitas tarefas posteriores de processamento de linguagem natural (PLN).
Sequence-to-Sequence algoritmo: esse algoritmo supervisionado é comumente usado para tradução de máquina neural.
Algoritmo Latent Dirichlet Allocation (LDA): esse algoritmo é adequado para determinar tópicos em um conjunto de documentos. É um algoritmo não supervisionado, o que significa que ele não usa dados de exemplo com respostas durante o treinamento.
Algoritmo de Modelo de tópicos neurais (NTM): outra técnica não supervisionada para determinar tópicos em um conjunto de documentos, usando uma abordagem de rede neural.
Classificação de texto - TensorFlow: um algoritmo supervisionado que oferece apoio ao aprendizado por transferência com modelos pré-treinados disponíveis para classificação de texto.

Processamento de imagens

SageMaker A IA também fornece algoritmos de processamento de imagem que são usados para classificação de imagens, detecção de objetos e visão computacional.

Classificação de imagens - MXNet: usa dados de exemplo com respostas (conhecido como algoritmo supervisionado). Use esse algoritmo para classificar imagens.
Classificação de imagens - TensorFlow—usa modelos de TensorFlow Hub pré-treinados para ajustar tarefas específicas (conhecido como algoritmo supervisionado). Use esse algoritmo para classificar imagens.
Algoritmo de segmentação semântica: fornece uma abordagem granular em nível de pixel ao desenvolvimento de aplicações de visão computacional.
Detecção de objetos - MXNet: detecta e classifica objetos em imagens usando uma única rede neural profunda. Ele é um algoritmo de aprendizado supervisionado que captura imagens como entrada e identifica todas as instâncias de objetos na cena da imagem.
Detecção de objetos - TensorFlow: detecta caixas delimitadoras e rótulos de objetos em uma imagem. É um algoritmo de aprendizado supervisionado que oferece suporte ao aprendizado por transferência com os modelos pré-treinados TensorFlow disponíveis.

Tópicos

Atenção O Javascript está desativado ou não está disponível no seu navegador.

Para usar a documentação da AWS, o Javascript deve estar ativado. Consulte as páginas de Ajuda do navegador para obter instruções.

Convenções do documento

Tipos de Algoritmos

Informações gerais