Não estamos mais atualizando o serviço Amazon Machine Learning nem aceitando novos usuários para ele. Essa documentação está disponível para usuários existentes, mas não estamos mais atualizando-a. Para obter mais informações, consulte O que é o Amazon Machine Learning.
Principais conceitos do Amazon Machine Learning
Esta seção resume os seguintes conceitos-chave e descreve em mais detalhes como eles são usados no Amazon ML:
-
As Fontes de dados contêm metadados associados a entradas de dados para o Amazon ML
-
Os Modelos de ML geram previsões usando os padrões extraídos dos dados de entrada
-
As Avaliações medem a qualidade dos modelos de ML
-
As Previsões em lote geram previsões de forma assíncrona para várias observações de dados de entrada
-
O Previsões em tempo real gera previsões de forma síncrona para observações de dados específicos
Fontes de dados
Uma fonte de dados é um objeto que contém metadados sobre os dados de entrada. O Amazon ML lê os dados de entrada, calcula as estatísticas descritivas nos atributos e armazena as estatísticas (junto com um esquema e outras informações) como parte do objeto da fonte de dados. Em seguida, o Amazon ML usa a fonte de dados para treinar e avaliar um modelo de ML e gerar previsões de lote.
Importante
Uma fonte de dados não armazena uma cópia dos dados de entrada. Em vez disso, armazena uma referência ao local do Amazon S3 em que residem os dados de entrada. Se você mover ou alterar o arquivo do Amazon S3, o Amazon ML não poderá acessá-lo ou usá-lo para criar um modelo de ML, gerar avaliações ou gerar previsões.
A tabela a seguir define os termos relacionados a fontes de dados.
Prazo | Definição |
---|---|
Atributo |
Uma propriedade exclusiva, específica, dentro de uma observação. Em dados com formato tabular, como planilhas ou arquivos de valores separados por vírgulas (CSV), os cabeçalhos de coluna representam os atributos e as linhas contêm valores para cada atributo. Sinônimos: variável, nome da variável, campo, coluna |
Nome da fonte de dados | (Opcional) permite que você defina um nome legível para uma fonte de dados. Esses nomes permitem que você encontre e gerencie as fontes de dados no console do Amazon ML. |
Dados de entrada | Nome coletivo para todas as observações que são chamadas por uma fonte de dados. |
Local | Local dos dados de entrada. No momento, o Amazon ML pode usar os dados que são armazenados em buckets do Amazon S3, bancos de dados do Amazon Redshift ou em bancos de dados MySQL no Amazon Relational Database Service (RDS). |
Observação |
Uma única unidade de dados de entrada. Por exemplo, se você estiver criando um modelo de ML para detectar transações fraudulentas, os dados de entrada consistirão em muitas observações, cada uma representando uma transação individual. Sinônimos: registro, exemplo, instância, linha |
ID da linha |
(Opcional) Um indicador que, se especificado, identifica um atributo nos dados de entrada a ser incluído na saída de previsão. Esse atributo facilita a associação de qual previsão corresponde a qual observação. Sinônimos: identificador de linha |
Esquema | A informação necessária para interpretar os dados de entrada, incluindo nomes de atributo e os tipos de dados atribuídos e os nomes dos atributos especiais. |
Estatísticas |
Estatísticas de resumo para cada atributo nos dados de entrada. Essas estatísticas têm duas finalidades: O console do Amazon ML os exibe em gráficos para ajudar você a compreender os dados imediatamente e identificar irregularidades ou erros. O Amazon ML os utiliza durante o processo de treinamento para melhorar a qualidade do modelo de ML resultante. |
Status | Indica o estado atual da fonte de dados, como In Progress (Em andamento), Completed (Concluída) ou Failed (Com falha). |
Atributo de destino |
No contexto de treinamento de um modelo de ML, o atributo de destino identifica o nome do atributo nos dados de entrada que contém as respostas "corretas". O Amazon ML usa isso para descobrir padrões nos dados de entrada e gerar um modelo de ML. No contexto de avaliação e geração de previsões, o atributo de destino é o atributo cujo valor será previsto por um modelo de ML treinado. Sinônimos: destino |
Modelos de ML
Um modelo de ML é um modelo matemático que gera previsões localizando padrões nos dados. O Amazon ML aceita três tipos de modelos de ML: classificação binária, classificação multiclasse e regressão.
A tabela a seguir define os termos relacionados a modelos de ML.
Prazo | Definição |
---|---|
Regressão | O objetivo de treinar um modelo de ML de regressão é prever um valor numérico. |
Multiclasse | O objetivo de treinar um modelo de ML multiclasse é prever valores que pertencem a um conjunto predefinido e limitado de valores permitidos. |
Binário | O objetivo de treinar um modelo de ML binário é prever valores que só podem ter um de dois estados, como verdadeiro ou falso. |
Tamanho do modelo | Os modelos de ML capturam e armazenam padrões. Quanto mais padrões um modelo de ML armazena, maior ele é. O tamanho do modelo de ML é descrito em Mbytes. |
Número de passagens | Quando você treina um modelo de ML, usa dados de uma fonte de dados. Às vezes, é vantajoso usar cada registro de dados no processo de aprendizagem mais de uma vez. O número de vezes que você deixa o Amazon ML usar os mesmos registros de dados é chamado de número de passagens. |
Regularização | A regularização é uma técnica de machine learning que você pode usar para obter modelos de maior qualidade. O Amazon ML oferece uma configuração padrão que funciona bem para a maioria dos casos. |
Avaliações
Uma avaliação mede a qualidade do modelo de ML e determina se ele é bem-sucedido.
A tabela a seguir define os termos relacionados a avaliações.
Prazo | Definição |
---|---|
Informações do modelo | O Amazon ML fornece uma métrica e um número de informações que você pode usar para avaliar o desempenho preditivo do modelo. |
AUC | A área sob a curva ROC (AUC) mede a capacidade de um modelo de ML binário de prever uma pontuação maior de exemplos positivos em comparação com os exemplos negativos. |
Pontuação F1 de média macro | A pontuação F1 de média macro é usada para avaliar o desempenho preditivo de modelos de ML multiclasse. |
RMSE | A raiz quadrada do erro quadrático médio (RMSE) é uma métrica usada para avaliar o desempenho preditivo de modelos de ML de regressão. |
Corte | Os modelos de ML funcionam gerando pontuações de previsão numérica. Ao aplicar um valor de corte, o sistema converte essas pontuações em rótulos 0 e 1. |
Precisão | A precisão mede a porcentagem de previsões corretas. |
Precisão | O Precision mostra a porcentagem de instâncias positivos reais (ao contrário de falsos positivos) entre as instâncias que foram recuperados (aquelas previstas como positivas). Em outras palavras, quantos itens selecionados são positivos? |
Recall | Recall mostra a porcentagem de positivos reais entre o número total de instâncias relevantes (positivos reais). Em outras palavras, quantos itens positivos estão selecionados? |
Previsões em lote
Previsões em lote são para um conjunto de observações que podem ser executadas ao mesmo tempo. Isso é ideal para análises preditivas que não têm um requisito em tempo real.
A tabela a seguir define os termos relacionados a previsões em lote.
Prazo | Definição |
---|---|
Local de saída | Os resultados de uma previsão em lote são armazenados em um local de saída do bucket do S3. |
Arquivo manifesto | Esse arquivo relaciona cada arquivo de dados de entrada aos resultados de previsões em lote associados. Ele é armazenado no local de saída do bucket do S3. |
Previsões em tempo real
As previsões em tempo real são para aplicativos com um requisito de baixa latência, como aplicativos web interativos, em dispositivos móveis e em desktops. É possível consultar previsões em qualquer modelo de ML usando a API de previsão em tempo real de baixa latência.
A tabela a seguir define os termos relacionados a previsões em tempo real.
Prazo | Definição |
---|---|
API de previsão em tempo real | A API de previsão em tempo real aceita uma única observação de entrada na carga útil da solicitação e retorna a previsão na resposta. |
Endpoint de previsão em tempo real | Para usar um modelo de ML com a API de previsão em tempo real, você precisa criar um endpoint de previsão em tempo real. Depois de criado, o endpoint contém o URL que você pode usar para solicitar previsões em tempo real. |