Obtenha insights sobre dados e qualidade dos dados - Amazon SageMaker

As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.

Obtenha insights sobre dados e qualidade dos dados

Use o Relatório de qualidade dos dados e insights para realizar uma análise dos dados que você importou para o Data Wrangler. Recomendamos que você crie o relatório após importar o conjunto de dados. Você pode usar o relatório para ajudar você a limpar e processar seus dados. Ele fornece informações como o número de valores ausentes e o número de valores atípicos. Caso tenha problemas com seus dados, como vazamento ou desequilíbrio de destino, o relatório de insights pode chamar sua atenção para esses problemas.

Use o procedimento a seguir para criar um relatório de qualidade dos dados e insights. Ele pressupõe que você já tenha importado um conjunto de dados para o fluxo do Data Wrangler.

Para criar um relatório de qualidade dos dados e insights
  1. Escolha um + próximo ao um nó em seu fluxo do Data Wrangler.

  2. Selecione Obter insights de dados.

  3. Em Nome da análise, especifique um nome para o relatório de insights.

  4. (Opcional) Para Coluna de destino, especifique a coluna de destino.

  5. Para Tipo de problema, especifique Regressão ou Classificação.

  6. Para Tamanho dos dados, especifique uma das opções a seguir:

    • 50 mil — Usa as primeiras 50000 linhas do conjunto de dados que você importou para criar o relatório.

    • Conjunto de dados inteiro — Usa o conjunto de dados inteiro que você importou para criar o relatório.

    nota

    A criação de um relatório de qualidade de dados e insights sobre todo o conjunto de dados usa um trabalho de SageMaker processamento da Amazon. Um trabalho SageMaker de processamento provisiona os recursos computacionais adicionais necessários para obter insights sobre todos os seus dados. Para obter mais informações sobre trabalhos SageMaker de processamento, consulteUse trabalhos de processamento para executar cargas de trabalho de transformação de dados.

  7. Escolha Criar.

Os tópicos a seguir mostram as seções do relatório:

Você pode fazer download do relatório ou visualizá-lo online. Para fazer download do relatório, escolha o botão de download no canto superior direito da tela. A imagem a seguir mostra o botão.

Resumo

O relatório de insights tem um breve resumo dos dados que inclui informações gerais, como valores ausentes, valores inválidos, tipos de recursos, contagens de valores atípicos e muito mais. Ele também pode incluir avisos de severidade alta que apontam para prováveis problemas com os dados. Recomendamos que você investigue os avisos.

Veja a seguir um exemplo de um resumo de relatório.

Coluna de destino

Quando você cria o relatório de qualidade dos dados e insights, o Data Wrangler oferece a opção de selecionar uma coluna de destino. Uma coluna de destino é uma coluna que você está tentando prever. Quando você escolhe uma coluna de destino, o Data Wrangler cria automaticamente uma análise da coluna de destino. Ele também classifica os recursos na ordem de seu poder preditivo. Ao selecionar uma coluna de destino, você deve especificar se está tentando resolver um problema de regressão ou classificação.

Para classificação, o Data Wrangler mostra uma tabela e um histograma das classes mais comuns. Uma classe é uma categoria. Ele também apresenta observações, ou linhas, com um valor de destino ausente ou inválido.

A imagem a seguir mostra um exemplo de análise de coluna de destino para um problema de classificação.

Para regressão, o Data Wrangler mostra um histograma de todos os valores na coluna de destino. Ele também apresenta observações, ou linhas, com um valor de destino ausente, inválido ou atípico.

A imagem a seguir mostra um exemplo de análise de coluna de destino para um problema de regressão.

Modelo rápido

O modelo rápido fornece uma estimativa da qualidade prevista esperada de um modelo que você treina em seus dados.

O Data Wrangler divide seus dados em folds de treinamento e validação. Ele usa 80% das amostras para treinamento e 20% dos valores para validação. Para classificação, a amostra é dividida estratificada. Para uma divisão estratificada, cada partição de dados tem a mesma proporção de rótulos. Para problemas de classificação, é importante ter a mesma proporção de rótulos entre os folds de treinamento e classificação. O Data Wrangler treina o modelo XGBoost com os hiperparâmetros padrão. Ele aplica a interrupção antecipada dos dados de validação e executa o mínimo de pré-processamento de recursos.

Para modelos de classificação, o Data Wrangler retorna um resumo do modelo e uma matriz de confusão.

Este é um exemplo de resumo de modelo de classificação. Para saber mais sobre as informações que ele retorna, consulte Definições.

Este é um exemplo de matriz de confusão que o modelo rápido retorna.

Uma matriz de confusão fornece as seguintes informações:

  • O número de vezes que o rótulo previsto corresponde ao rótulo verdadeiro.

  • O número de vezes que o rótulo previsto não corresponde ao rótulo verdadeiro.

O rótulo verdadeiro representa uma observação real em seus dados. Por exemplo, se você está usando um modelo para detectar transações fraudulentas, o rótulo verdadeiro representa uma transação que é realmente fraudulenta ou não fraudulenta. O rótulo previsto representa o rótulo que seu modelo atribui aos dados.

Você pode usar a matriz de confusão para ver o quão bem o modelo prevê a presença ou a ausência de uma condição. Se você está prevendo transações fraudulentas, pode usar a matriz de confusão para ter uma ideia da sensibilidade e da especificidade do modelo. A sensibilidade se refere à capacidade do modelo de detectar transações fraudulentas. A especificidade se refere à capacidade do modelo de evitar a detecção de transações não fraudulentas como fraudulentas.

Este é um exemplo de resultados do modelo rápido para um problema de regressão.

Resumo de recursos

Quando você especifica uma coluna de destino, o Data Wrangler ordena os recursos de acordo com seu poder de previsão. O poder de previsão é medido nos dados após serem divididos em folds de 80% de treinamento e 20% de validação. O Data Wrangler ajusta um modelo para cada recurso separadamente no fold de treinamento. Ele aplica o mínimo de pré-processamento de recursos e mede a performance da previsão nos dados de validação.

Ele normaliza as pontuações para o intervalo [0,1]. Pontuações de previsão mais altas indicam colunas mais úteis para prever o destino sozinhas. Pontuações mais baixas apontam para colunas não preditivas da coluna de destino.

É incomum que uma coluna que não seja preditiva por si só seja preditiva quando usada em conjunto com outras colunas. Você pode usar com confiança as pontuações de previsão para determinar se um recurso em seu conjunto de dados é preditivo.

Uma pontuação baixa geralmente indica que o recurso é redundante. Uma pontuação de 1 indica habilidades preditivas perfeitas, o que geralmente indica vazamento do destino. O vazamento do destino geralmente ocorre quando o conjunto de dados contém uma coluna que não está disponível no momento da previsão. Por exemplo, pode ser uma duplicata da coluna de destino.

Veja a seguir exemplos da tabela e do histograma que mostram o valor de previsão de cada recurso.

Amostras

O Data Wrangler fornece informações sobre se suas amostras são anômalas ou se há duplicatas em seu conjunto de dados.

O Data Wrangler detecta amostras anômalas usando o algoritmo de floresta de isolamento. A floresta de isolamento associa uma pontuação de anomalias a cada amostra (linha) do conjunto de dados. Pontuações de anomalias baixas indicam amostras anômalas. Pontuações altas estão associadas a amostras não anômalas. Amostras com pontuação de anomalias negativas geralmente são consideradas anômalas, e amostras com pontuação de anomalias positivas são consideradas não anômalas.

Ao analisar uma amostra que pode ser anômala, recomendamos que você preste atenção aos valores incomuns. Por exemplo, você pode ter valores anômalos resultantes de erros na coleta e no processamento dos dados. A seguir está um exemplo das amostras mais anômalas de acordo com a implementação do algoritmo de floresta de isolamento do Data Wrangler. Recomendamos usar o conhecimento do domínio e a lógica de negócios ao examinar as amostras anômalas.

O Data Wrangler detecta linhas duplicadas e calcula a proporção de linhas duplicadas em seus dados. Algumas fontes de dados podem incluir duplicatas válidas. Outras fontes de dados podem ter duplicatas que apontam para problemas na coleta de dados. Amostras duplicadas resultantes de uma coleta de dados incorreta podem interferir nos processos de machine learning que dependem da divisão dos dados em folds de treinamento e validação independentes.

A seguir estão os elementos do relatório de insights que podem ser impactados por amostras duplicadas:

  • Modelo rápido

  • Estimativa do poder de previsão

  • Ajuste automático de hiperparâmetros

Você pode remover amostras duplicadas do conjunto de dados usando a transformação Descartar duplicata em Gerenciar linhas. O Data Wrangler mostra as linhas duplicadas com mais frequência.

Definições

Estas são as definições dos termos técnicos usados no relatório de insights de dados.

Feature types

A seguir estão as definições para cada um dos tipos de recursos:

  • Numérico — Os valores numéricos podem ser flutuantes ou inteiros, como idade ou renda. Os modelos de machine learning pressupõem que os valores numéricos são ordenados e uma distância é definida sobre eles. Por exemplo, 3 está mais próximo de 4 do que de 10 e 3 < 4 < 10.

  • Categórico — As entradas da coluna pertencem a um conjunto de valores exclusivos, que geralmente é muito menor do que o número de entradas na coluna. Por exemplo, uma coluna de comprimento 100 pode conter os valores exclusivos Dog, Cat e Mouse. Os valores poderiam ser numéricos, de texto ou uma combinação de ambos. Horse, House, 8, Love e 3.1 seriam todos valores válidos e poderiam ser encontrados na mesma coluna categórica. O modelo de machine learning não pressupõe ordem ou distância nos valores dos recursos categóricos, ao contrário dos recursos numéricos, mesmo quando todos os valores são números.

  • Binário — Os recursos binários são um tipo especial de recurso categórico no qual a cardinalidade do conjunto de valores exclusivos é 2.

  • Texto — Uma coluna de texto contém muitos valores exclusivos não numéricos. Em casos extremos, todos os elementos da coluna são exclusivos. Em um caso extremo, não há duas entradas iguais.

  • Datetime — Uma coluna de datetime contém informações sobre a data ou a hora. Ela pode ter informações de data e hora.

Feature statistics

A seguir estão as definições para cada uma das estatísticas dos recursos:

  • Poder de previsão – O poder de previsão mede o quão útil a coluna na previsão do destino.

  • Valores atípicos (em colunas numéricas) — O Data Wrangler detecta valores atípicos usando duas estatísticas que são robustas aos valores atípicos: mediana e desvio padrão robusto (RSTD). O RSTD é derivado recortando os valores dos recursos no intervalo [5 percentil, 95 percentil] e calculando o desvio padrão do vetor recortado. Todos os valores maiores que a mediana + 5 * RSTD ou menores que a mediana - 5 * RSTD são considerados atípicos.

  • Distorção (em colunas numéricas) — A distorção mede a simetria da distribuição e é definida como o terceiro momento da distribuição dividido pela terceira potência do desvio padrão. A assimetria da distribuição normal ou de qualquer outra distribuição simétrica é zero. Valores positivos implicam que a cauda direita da distribuição é maior que a cauda esquerda. Valores positivos implicam que a cauda direita da distribuição é maior que a cauda direita. Como regra geral, uma distribuição é considerada distorcida quando o valor absoluto da distorção é maior que 3.

  • Curtose (em colunas numéricas) — A curtose de Pearson mede o peso da cauda da distribuição. Ela é definida como o quarto momento da distribuição dividido pelo quadrado do segundo momento. A curtose da distribuição normal é 3. Valores de curtose menores que 3 implicam que a distribuição está concentrada em torno da média e as caudas são mais claras do que as caudas da distribuição normal. Valores de curtose maiores que 3 implicam caudas mais pesadas ou valores atípicos.

  • Valores ausentes — Objetos semelhantes a Nulo, strings vazias e compostas somente por espaços em branco são considerados ausentes.

  • Valores válidos para recursos numéricos ou destino de regressão – Todos os valores que você pode converter em flutuantes finitos são válidos. Valores ausentes não são válidos.

  • Valores válidos para recursos categóricos, binários ou de texto, ou para destino de classificação – Todos os valores que não são ausentes são válidos.

  • Recursos de datetime — Todos os valores que você pode converter em um objeto de datetime são válidos. Valores ausentes não são válidos.

  • Valores inválidos – Valores que são ausentes ou que você não pode converter corretamente. Por exemplo, em uma coluna numérica, você não pode converter a string "six" ou um valor nulo.

Quick model metrics for regression

A seguir estão as definições para as métricas de modelo rápido:

  • R2 ou coeficiente de determinação – R2 é a proporção da variação no destino prevista pelo modelo. R2 está no intervalo de [-infty, 1]. 1 é a pontuação do modelo que prevê o destino perfeitamente, e 0 é a pontuação do modelo trivial que sempre prevê a média de destino.

  • MSE ou erro quadrático médio – MSE está no intervalo [0, infty]. 0 é a pontuação do modelo que prevê o destino perfeitamente.

  • MAE ou erro absoluto médio – MAE está no intervalo [0, infty] em que 0 é a pontuação do modelo que prevê o destino perfeitamente.

  • RMSE ou raiz do erro quadrático médio – RMSE está no intervalo [0, infty]. em que 0 é a pontuação do modelo que prevê o destino perfeitamente.

  • Erro máximo — O valor absoluto máximo do erro no conjunto de dados. O erro máximo está no intervalo [0, infty]. 0 é a pontuação do modelo que prevê o destino perfeitamente.

  • Erro absoluto médio – O erro absoluto médio está no intervalo [0, infty]. 0 é a pontuação do modelo que prevê o destino perfeitamente.

Quick model metrics for classification

A seguir estão as definições para as métricas de modelo rápido:

  • Precisão — Precisão é a proporção de amostras que são previstas com precisão. A precisão está no intervalo [0, 1]. 0 é a pontuação do modelo que prevê todas as amostras incorretamente, e 1 é a pontuação do modelo perfeito.

  • Precisão balanceada — A precisão balanceada é a proporção de amostras que são previstas com precisão quando os pesos da classe são ajustados para equilibrar os dados. Todas as classes têm a mesma importância, independentemente da frequência. A precisão balanceada está no intervalo [0, 1]. 0 é a pontuação do modelo que prevê todas as amostras incorretamente, e 1 é a pontuação do modelo perfeito.

  • AUC (classificação binária) — Essa é a área sob a curva característica de operação do receptor. AUC está no intervalo [0, 1] em que um modelo aleatório retorna uma pontuação de 0,5, e o modelo perfeito retorna uma pontuação de 1.

  • AUC (OVR) — Para classificação multiclasse, esta é a área sob a curva característica de operação do receptor calculada separadamente para cada rótulo usando um versus rest. O Data Wrangler relata a média das áreas. AUC está no intervalo [0, 1] em que um modelo aleatório retorna uma pontuação de 0,5, e o modelo perfeito retorna uma pontuação de 1.

  • Precisão – A precisão é definida para uma classe específica. Precisão é a fração de positivos verdadeiros de todas as instâncias que o modelo classificou como essa classe. A precisão está no intervalo [0, 1]. 1 é a pontuação do modelo que não tem falsos-positivos para a classe. Para classificação binária, o Data Wrangler relata a precisão da classe positiva.

  • Recall – O recall é definido para uma classe específica. Recall é a fração das instâncias de classe relevantes que são recuperadas com sucesso. Recall está no intervalo [0, 1]. 1 é a pontuação do modelo que classifica todas as instâncias da classe corretamente. Para classificação binária, o Data Wrangler relata o recall da classe positiva.

  • F1 – F1 é definido para uma classe específica. Ele é a média harmônica da precisão e do recall. F1 está no intervalo [0, 1]. 1 é a pontuação do modelo perfeito. Para classificação binária, o Data Wrangler relata o F1 da classe com valores positivos.

Textual patterns

Padrões descrevem o formato textual de uma string usando um formato fácil de ler. Estes são exemplos de padrões textuais:

  • {digits:4-7}” descreve uma sequência de dígitos com um comprimento entre 4 e 7.

  • {alnum:5}” descreve uma string alfanumérica com um comprimento de exatamente 5.

O Data Wrangler infere os padrões examinando amostras de strings não vazias de seus dados. Ele pode descrever muitos dos padrões comumente usados. A confiança expressa como uma porcentagem indica qual é a estimativa da correspondência dos dados ao padrão. Usando o padrão textual, é possível ver quais linhas de seus dados precisam ser corrigidas ou descartadas.

A seguir, descrevemos os padrões que o Data Wrangler pode reconhecer:

Padrão Formato textual

{alnum}

Strings alfanuméricas

{any}

Qualquer string de caracteres de palavras

{digits}

Uma sequência de dígitos

{lower}

Uma palavra minúscula

{mixed}

Uma palavra com maiúsculas e minúsculas

{name}

Uma palavra que começa com uma letra maiúscula

{upper}

Uma palavra maiúscula

{whitespace}

Caracteres de espaço em branco

Um caractere de palavra é um sublinhado ou um caractere que pode aparecer em uma palavra em qualquer idioma. Por exemplo, as strings “Hello_word” e “écoute” consistem em caracteres de palavras. “H” e “é” são exemplos de caracteres de palavras.