Realizar análise exploratória de dados (EDA) - Amazon SageMaker

As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.

Realizar análise exploratória de dados (EDA)

O Data Wrangler inclui análises integradas que ajudam você a gerar visualizações e análises de dados com apenas alguns cliques. Você também pode criar análises personalizadas usando seu próprio código.

Você adiciona uma análise a um quadro de dados selecionando uma etapa em seu fluxo de dados e, em seguida, escolhendo Adicionar análise. Para acessar uma análise que você criou, selecione a etapa que contém a análise e selecione a análise.

Todas as análises são geradas usando 20.000 linhas do seu conjunto de dados.

Você pode adicionar a seguinte análise a um quadro de dados:

  • Visualizações de dados, incluindo histogramas e gráficos de dispersão.

  • Um resumo rápido do seu conjunto de dados, incluindo número de entradas, valores mínimos e máximos (para dados numéricos) e categorias mais e menos frequentes (para dados categóricos).

  • Um modelo rápido do conjunto de dados, que pode ser usado para gerar uma pontuação de importância para cada recurso.

  • Um relatório de vazamento de destino, que você pode usar para determinar se um ou mais recursos estão fortemente correlacionadas com seu recurso de destino.

  • Uma visualização personalizada usando seu próprio código.

Use as seguintes seções para saber mais sobre essas opções.

Obtenha insights sobre dados e qualidade de dados

Use o Relatório de qualidade dos dados e insights para realizar uma análise dos dados que você importou para o Data Wrangler. Recomendamos que você crie o relatório após importar o conjunto de dados. Você pode usar o relatório para ajudar você a limpar e processar seus dados. Ele fornece informações como o número de valores ausentes e o número de valores atípicos. Caso tenha problemas com seus dados, como vazamento ou desequilíbrio de destino, o relatório de insights pode chamar sua atenção para esses problemas.

Use o procedimento a seguir para criar um relatório de qualidade dos dados e insights. Ele pressupõe que você já tenha importado um conjunto de dados para o fluxo do Data Wrangler.

Para criar um relatório de qualidade dos dados e insights
  1. Escolha um + próximo ao um nó em seu fluxo do Data Wrangler.

  2. Selecione Obter insights de dados.

  3. Em Nome da análise, especifique um nome para o relatório de insights.

  4. (Opcional) Para Coluna de destino, especifique a coluna de destino.

  5. Para Tipo de problema, especifique Regressão ou Classificação.

  6. Para Tamanho dos dados, especifique uma das opções a seguir:

    • 20 K — usa as primeiras 20.000 linhas do conjunto de dados que você importou para criar o relatório.

    • Conjunto de dados inteiro — Usa o conjunto de dados inteiro que você importou para criar o relatório.

    nota

    A criação de um relatório de qualidade de dados e insights sobre todo o conjunto de dados usa um trabalho de SageMaker processamento da Amazon. Um trabalho SageMaker de processamento provisiona os recursos computacionais adicionais necessários para obter insights sobre todos os seus dados. Para obter mais informações sobre trabalhos SageMaker de processamento, consulteUse trabalhos de processamento para executar cargas de trabalho de transformação de dados.

  7. Escolha Criar.

Os tópicos a seguir mostram as seções do relatório:

Você pode fazer download do relatório ou visualizá-lo online. Para fazer download do relatório, escolha o botão de download no canto superior direito da tela.

Resumo

O relatório de insights tem um breve resumo dos dados que inclui informações gerais, como valores ausentes, valores inválidos, tipos de recursos, contagens de valores atípicos e muito mais. Ele também pode incluir avisos de severidade alta que apontam para prováveis problemas com os dados. Recomendamos que você investigue os avisos.

Coluna de destino

Quando você cria o Relatório de Qualidade de Dados e Insights, o Data Wrangler oferece a opção de selecionar uma coluna de destino. Uma coluna de destino é uma coluna que você está tentando prever. Quando você escolhe uma coluna de destino, o Data Wrangler cria automaticamente uma análise da coluna de destino. Ele também classifica os recursos na ordem de seu poder preditivo. Ao selecionar uma coluna de destino, você deve especificar se está tentando resolver um problema de regressão ou classificação.

Para classificação, o Data Wrangler mostra uma tabela e um histograma das classes mais comuns. Uma classe é uma categoria. Ele também apresenta observações, ou linhas, com um valor de destino ausente ou inválido.

Para regressão, o Data Wrangler mostra um histograma de todos os valores na coluna de destino. Ele também apresenta observações, ou linhas, com um valor de destino ausente, inválido ou atípico.

Modelo rápido

O modelo rápido fornece uma estimativa da qualidade prevista esperada de um modelo que você treina em seus dados.

O Data Wrangler divide seus dados em folds de treinamento e validação. Ele usa 80% das amostras para treinamento e 20% dos valores para validação. Para classificação, a amostra é dividida estratificada. Para uma divisão estratificada, cada partição de dados tem a mesma proporção de rótulos. Para problemas de classificação, é importante ter a mesma proporção de rótulos entre os folds de treinamento e classificação. O Data Wrangler treina o modelo XGBoost com os hiperparâmetros padrão. Ele aplica a interrupção antecipada dos dados de validação e executa o mínimo de pré-processamento de recursos.

Para modelos de classificação, o Data Wrangler retorna um resumo do modelo e uma matriz de confusão.

Para saber mais sobre as informações que o resumo do modelo de classificação retorna, consulteDefinições.

Uma matriz de confusão fornece as seguintes informações:

  • O número de vezes que o rótulo previsto corresponde ao rótulo verdadeiro.

  • O número de vezes que o rótulo previsto não corresponde ao rótulo verdadeiro.

O rótulo verdadeiro representa uma observação real em seus dados. Por exemplo, se você está usando um modelo para detectar transações fraudulentas, o rótulo verdadeiro representa uma transação que é realmente fraudulenta ou não fraudulenta. O rótulo previsto representa o rótulo que seu modelo atribui aos dados.

Você pode usar a matriz de confusão para ver o quão bem o modelo prevê a presença ou a ausência de uma condição. Se você está prevendo transações fraudulentas, pode usar a matriz de confusão para ter uma ideia da sensibilidade e da especificidade do modelo. A sensibilidade se refere à capacidade do modelo de detectar transações fraudulentas. A especificidade se refere à capacidade do modelo de evitar a detecção de transações não fraudulentas como fraudulentas.

Resumo de recursos

Quando você especifica uma coluna de destino, o Data Wrangler ordena os recursos de acordo com seu poder de previsão. O poder de predição é medido nos dados após serem divididos em 80% de treinamento e 20% de dobras de validação. O Data Wrangler ajusta um modelo para cada recurso separadamente no fold de treinamento. Ele aplica o mínimo de pré-processamento de recursos e mede a performance da previsão nos dados de validação.

Ele normaliza as pontuações para o intervalo [0,1]. Pontuações de previsão mais altas indicam colunas mais úteis para prever o destino sozinhas. Pontuações mais baixas apontam para colunas não preditivas da coluna de destino.

É incomum que uma coluna que não seja preditiva por si só seja preditiva quando usada em conjunto com outras colunas. Você pode usar com confiança as pontuações de previsão para determinar se um recurso em seu conjunto de dados é preditivo.

Uma pontuação baixa geralmente indica que o recurso é redundante. Uma pontuação de 1 indica habilidades preditivas perfeitas, o que geralmente indica vazamento do destino. O vazamento do destino geralmente ocorre quando o conjunto de dados contém uma coluna que não está disponível no momento da previsão. Por exemplo, pode ser uma duplicata da coluna de destino.

Amostras

O Data Wrangler fornece informações sobre se suas amostras são anômalas ou se há duplicatas em seu conjunto de dados.

O Data Wrangler detecta amostras anômalas usando o algoritmo de floresta de isolamento. A floresta de isolamento associa uma pontuação de anomalias a cada amostra (linha) do conjunto de dados. Pontuações de anomalias baixas indicam amostras anômalas. Pontuações altas estão associadas a amostras não anômalas. Amostras com pontuação de anomalias negativas geralmente são consideradas anômalas, e amostras com pontuação de anomalias positivas são consideradas não anômalas.

Ao analisar uma amostra que pode ser anômala, recomendamos que você preste atenção aos valores incomuns. Por exemplo, você pode ter valores anômalos resultantes de erros na coleta e no processamento dos dados. A seguir está um exemplo das amostras mais anômalas de acordo com a implementação do algoritmo de floresta de isolamento do Data Wrangler. Recomendamos usar o conhecimento do domínio e a lógica de negócios ao examinar as amostras anômalas.

O Data Wrangler detecta linhas duplicadas e calcula a proporção de linhas duplicadas em seus dados. Algumas fontes de dados podem incluir duplicatas válidas. Outras fontes de dados podem ter duplicatas que apontam para problemas na coleta de dados. Amostras duplicadas resultantes de uma coleta de dados incorreta podem interferir nos processos de machine learning que dependem da divisão dos dados em folds de treinamento e validação independentes.

A seguir estão os elementos do relatório de insights que podem ser impactados por amostras duplicadas:

  • Modelo rápido

  • Estimativa do poder de previsão

  • Ajuste automático de hiperparâmetros

Você pode remover amostras duplicadas do conjunto de dados usando a transformação Descartar duplicata em Gerenciar linhas. O Data Wrangler mostra as linhas duplicadas com mais frequência.

Definições

Estas são as definições dos termos técnicos usados no relatório de insights de dados.

Feature types

A seguir estão as definições para cada um dos tipos de recursos:

  • Numérico — Os valores numéricos podem ser flutuantes ou inteiros, como idade ou renda. Os modelos de machine learning pressupõem que os valores numéricos são ordenados e uma distância é definida sobre eles. Por exemplo, 3 está mais próximo de 4 do que de 10 e 3 < 4 < 10.

  • Categórico — As entradas da coluna pertencem a um conjunto de valores exclusivos, que geralmente é muito menor do que o número de entradas na coluna. Por exemplo, uma coluna de comprimento 100 pode conter os valores exclusivos Dog, Cat e Mouse. Os valores poderiam ser numéricos, de texto ou uma combinação de ambos. Horse, House, 8, Love e 3.1 seriam todos valores válidos e poderiam ser encontrados na mesma coluna categórica. O modelo de machine learning não pressupõe ordem ou distância nos valores dos recursos categóricos, ao contrário dos recursos numéricos, mesmo quando todos os valores são números.

  • Binário — Os recursos binários são um tipo especial de recurso categórico no qual a cardinalidade do conjunto de valores exclusivos é 2.

  • Texto — Uma coluna de texto contém muitos valores exclusivos não numéricos. Em casos extremos, todos os elementos da coluna são exclusivos. Em um caso extremo, não há duas entradas iguais.

  • Datetime — Uma coluna de datetime contém informações sobre a data ou a hora. Ela pode ter informações de data e hora.

Feature statistics

A seguir estão as definições para cada uma das estatísticas dos recursos:

  • Poder de previsão – O poder de previsão mede o quão útil a coluna na previsão do destino.

  • Valores atípicos (em colunas numéricas) — O Data Wrangler detecta valores atípicos usando duas estatísticas que são robustas aos valores atípicos: mediana e desvio padrão robusto (RSTD). O RSTD é derivado recortando os valores dos recursos no intervalo [5 percentil, 95 percentil] e calculando o desvio padrão do vetor recortado. Todos os valores maiores que a mediana + 5 * RSTD ou menores que a mediana - 5 * RSTD são considerados atípicos.

  • Distorção (em colunas numéricas) — A distorção mede a simetria da distribuição e é definida como o terceiro momento da distribuição dividido pela terceira potência do desvio padrão. A assimetria da distribuição normal ou de qualquer outra distribuição simétrica é zero. Valores positivos implicam que a cauda direita da distribuição é maior que a cauda esquerda. Valores positivos implicam que a cauda direita da distribuição é maior que a cauda direita. Como regra geral, uma distribuição é considerada distorcida quando o valor absoluto da distorção é maior que 3.

  • Curtose (em colunas numéricas) — A curtose de Pearson mede o peso da cauda da distribuição. Ela é definida como o quarto momento da distribuição dividido pelo quadrado do segundo momento. A curtose da distribuição normal é 3. Valores de curtose menores que 3 implicam que a distribuição está concentrada em torno da média e as caudas são mais claras do que as caudas da distribuição normal. Valores de curtose maiores que 3 implicam caudas mais pesadas ou valores atípicos.

  • Valores ausentes — Objetos semelhantes a Nulo, strings vazias e compostas somente por espaços em branco são considerados ausentes.

  • Valores válidos para recursos numéricos ou destino de regressão – Todos os valores que você pode converter em flutuantes finitos são válidos. Valores ausentes não são válidos.

  • Valores válidos para recursos categóricos, binários ou de texto, ou para destino de classificação – Todos os valores que não são ausentes são válidos.

  • Recursos de datetime — Todos os valores que você pode converter em um objeto de datetime são válidos. Valores ausentes não são válidos.

  • Valores inválidos – Valores que são ausentes ou que você não pode converter corretamente. Por exemplo, em uma coluna numérica, você não pode converter a string "six" ou um valor nulo.

Quick model metrics for regression

A seguir estão as definições para as métricas de modelo rápido:

  • R2 ou coeficiente de determinação – R2 é a proporção da variação no destino prevista pelo modelo. R2 está no intervalo de [-infty, 1]. 1 é a pontuação do modelo que prevê o destino perfeitamente, e 0 é a pontuação do modelo trivial que sempre prevê a média de destino.

  • MSE ou erro quadrático médio – MSE está no intervalo [0, infty]. 0 é a pontuação do modelo que prevê o destino perfeitamente.

  • MAE ou erro absoluto médio – MAE está no intervalo [0, infty] em que 0 é a pontuação do modelo que prevê o destino perfeitamente.

  • RMSE ou raiz do erro quadrático médio – RMSE está no intervalo [0, infty]. em que 0 é a pontuação do modelo que prevê o destino perfeitamente.

  • Erro máximo — O valor absoluto máximo do erro no conjunto de dados. O erro máximo está no intervalo [0, infty]. 0 é a pontuação do modelo que prevê o destino perfeitamente.

  • Erro absoluto médio – O erro absoluto médio está no intervalo [0, infty]. 0 é a pontuação do modelo que prevê o destino perfeitamente.

Quick model metrics for classification

A seguir estão as definições para as métricas de modelo rápido:

  • Precisão — Precisão é a proporção de amostras que são previstas com precisão. A precisão está no intervalo [0, 1]. 0 é a pontuação do modelo que prevê todas as amostras incorretamente, e 1 é a pontuação do modelo perfeito.

  • Precisão balanceada — A precisão balanceada é a proporção de amostras que são previstas com precisão quando os pesos da classe são ajustados para equilibrar os dados. Todas as classes têm a mesma importância, independentemente da frequência. A precisão balanceada está no intervalo [0, 1]. 0 é a pontuação do modelo que prevê todas as amostras incorretamente, e 1 é a pontuação do modelo perfeito.

  • AUC (classificação binária) — Essa é a área sob a curva característica de operação do receptor. AUC está no intervalo [0, 1] em que um modelo aleatório retorna uma pontuação de 0,5, e o modelo perfeito retorna uma pontuação de 1.

  • AUC (OVR) — Para classificação multiclasse, esta é a área sob a curva característica de operação do receptor calculada separadamente para cada rótulo usando um versus rest. O Data Wrangler relata a média das áreas. AUC está no intervalo [0, 1] em que um modelo aleatório retorna uma pontuação de 0,5, e o modelo perfeito retorna uma pontuação de 1.

  • Precisão – A precisão é definida para uma classe específica. Precisão é a fração de positivos verdadeiros de todas as instâncias que o modelo classificou como essa classe. A precisão está no intervalo [0, 1]. 1 é a pontuação do modelo que não tem falsos-positivos para a classe. Para classificação binária, o Data Wrangler relata a precisão da classe positiva.

  • Recall – O recall é definido para uma classe específica. Recall é a fração das instâncias de classe relevantes que são recuperadas com sucesso. Recall está no intervalo [0, 1]. 1 é a pontuação do modelo que classifica todas as instâncias da classe corretamente. Para classificação binária, o Data Wrangler relata o recall da classe positiva.

  • F1 – F1 é definido para uma classe específica. Ele é a média harmônica da precisão e do recall. F1 está no intervalo [0, 1]. 1 é a pontuação do modelo perfeito. Para classificação binária, o Data Wrangler relata o F1 da classe com valores positivos.

Textual patterns

Padrões descrevem o formato textual de uma string usando um formato fácil de ler. Estes são exemplos de padrões textuais:

  • {digits:4-7}” descreve uma sequência de dígitos com um comprimento entre 4 e 7.

  • {alnum:5}” descreve uma string alfanumérica com um comprimento de exatamente 5.

O Data Wrangler infere os padrões examinando amostras de strings não vazias de seus dados. Ele pode descrever muitos dos padrões comumente usados. A confiança expressa como uma porcentagem indica qual é a estimativa da correspondência dos dados ao padrão. Usando o padrão textual, é possível ver quais linhas de seus dados precisam ser corrigidas ou descartadas.

A seguir, descrevemos os padrões que o Data Wrangler pode reconhecer:

Padrão Formato textual

{alnum}

Strings alfanuméricas

{any}

Qualquer string de caracteres de palavras

{digits}

Uma sequência de dígitos

{lower}

Uma palavra minúscula

{mixed}

Uma palavra com maiúsculas e minúsculas

{name}

Uma palavra que começa com uma letra maiúscula

{upper}

Uma palavra maiúscula

{whitespace}

Caracteres de espaço em branco

Um caractere de palavra é um sublinhado ou um caractere que pode aparecer em uma palavra em qualquer idioma. Por exemplo, as cadeias de caracteres 'Hello_word' e 'écoute' ambas consistem em caracteres de palavras. “H” e “é” são exemplos de caracteres de palavras.

Relatório de desvio

SageMaker O Canvas fornece o relatório de viés no Data Wrangler para ajudar a descobrir possíveis vieses em seus dados. O relatório de viés analisa a relação entre a coluna de destino (rótulo) e uma coluna que você acredita que possa conter viés (variável facetária). Por exemplo, se você está tentando prever a conversão do cliente, a variável principal pode ser a idade do cliente. O relatório de viés pode ajudá-lo a determinar se seus dados são tendenciosos ou não em relação a uma determinada faixa etária.

Para gerar um relatório de viés no Canvas, faça o seguinte:

  1. Em seu fluxo de dados no Data Wrangler, escolha o ícone Mais opções ( ) ao lado de um nó no fluxo.

  2. No menu de contexto, escolha Obter insights de dados.

  3. O painel lateral Criar análise é aberto. No menu suspenso Tipo de análise, selecione Relatório de polarização.

  4. No campo Nome da análise, insira um nome para o relatório de viés.

  5. No menu suspenso Selecione a coluna que seu modelo prevê (alvo), selecione sua coluna de destino.

  6. Para Sua coluna prevista é um valor ou limite? , selecione Valor se sua coluna de destino tiver valores categóricos ou Limite se tiver valores numéricos.

  7. Em Valor previsto (ou Limite previsto, dependendo da sua seleção na etapa anterior), insira o valor ou valores da coluna alvo que correspondem a um resultado positivo. Por exemplo, ao prever a conversão do cliente, seu valor pode ser yes indicar que um cliente foi convertido.

  8. No menu suspenso Selecionar a coluna a ser analisada quanto ao viés, selecione a coluna que você acredita que possa conter viés, também conhecida como variável facetária.

  9. Para Sua coluna é um valor ou limite? , selecione Valor se a variável facetária tiver valores categóricos ou Limite se tiver valores numéricos.

  10. Em Valores da coluna a serem analisados quanto ao vício (ou Limite da coluna para analisar o viés, dependendo da sua seleção na etapa anterior), insira o valor ou os valores que você deseja analisar quanto ao possível viés. Por exemplo, se você estiver verificando preconceitos contra clientes acima de uma certa idade, use o início dessa faixa etária como seu limite.

  11. Em Escolher métricas de viés, selecione as métricas de preconceito que você gostaria de incluir em seu relatório de preconceito. Passe o mouse sobre os ícones de informações para obter mais informações sobre cada métrica.

  12. (Opcional) Quando solicitado com a opção Você gostaria de analisar métricas adicionais? , selecione Sim para visualizar e incluir mais métricas de viés.

  13. Quando estiver pronto para criar o relatório de parcialidade, escolha Adicionar.

Depois de gerado, o relatório fornece uma visão geral das métricas de viés que você selecionou. Você pode visualizar o relatório de viés a qualquer momento na guia Análises do seu fluxo de dados.

Histograma

Use histogramas para ver as contagens dos valores de um recurso específico. Você pode inspecionar as relações entre os recursos usando a opção Colorir por.

Você pode usar o recurso Facet by para criar histogramas de uma coluna, para cada valor em outra coluna.

Gráfico de dispersão

Use o recurso Gráfico de dispersão para inspecionar a relação entre os recursos. Para criar um gráfico de dispersão, selecione um recurso para plotar no eixo X e no eixo Y. Ambas as colunas devem ser colunas de tipo numérico.

Você pode colorir gráficos de dispersão usando uma coluna adicional.

Além disso, você pode facetar gráficos de dispersão por recursos.

Resumo da tabela

Use a análise de Resumo da tabela para resumir rapidamente seus dados.

Para colunas com dados numéricos, incluindo dados de log e flutuantes, um resumo da tabela relata o número de entradas (contagem), mínimo (mínimo), máximo (máximo), média e desvio padrão (stddev) para cada coluna.

Para colunas com dados não numéricos, incluindo colunas com dados de string, booleanos ou de data/hora, um resumo da tabela relata o número de entradas (contagem), o valor menos frequente (mínimo) e o valor mais frequente (máximo).

Modelo rápido

Use a visualização do Modelo rápidol para avaliar rapidamente seus dados e produzir pontuações de importância para cada recurso. Uma pontuação de importância de um recurso indica a utilidade de um recurso na previsão de um rótulo de destino. A pontuação de importância do recurso está entre [0, 1] e um número maior indica que o recurso é mais importante para todo o conjunto de dados. Na parte superior do gráfico rápido do modelo, há uma pontuação do modelo. Um problema de classificação mostra uma pontuação na F1. Um problema de regressão tem uma pontuação de erro quadrático médio (MSE).

Ao criar um gráfico de modelo rápido, você seleciona um conjunto de dados que deseja avaliar e um rótulo de destino com o qual deseja comparar a importância do recurso. O Data Wrangler faz o seguinte:

  • Infere os tipos de dados para o rótulo de destino e cada recurso no conjunto de dados selecionado.

  • Determina o tipo de problema. Com base no número de valores distintos na coluna do rótulo, o Data Wrangler determina se esse é um tipo de problema de regressão ou classificação. O Data Wrangler define um limite categórico para 100. Se houver mais de 100 valores distintos na coluna do rótulo, o Data Wrangler o classifica como um problema de regressão; caso contrário, ele é classificado como um problema de classificação.

  • Pré-processa os recursos e os dados de rótulos para treinamento. O algoritmo usado requer recursos de codificação para tipo vetorial e rótulos de codificação para tipo duplo.

  • Treina um algoritmo de floresta aleatório com 70% dos dados. O Spark's RandomForestRegressoré usado para treinar um modelo para problemas de regressão. O RandomForestClassifieré usado para treinar um modelo para problemas de classificação.

  • Avalia um modelo de floresta aleatória com os 30% restantes dos dados. O Data Wrangler avalia modelos de classificação usando uma pontuação F1 e avalia modelos de regressão usando uma pontuação MSE.

  • Calcula a importância do recurso para cada recurso usando o método de importância de Gini.

Vazamento alvo

O vazamento de destino ocorre quando há dados em um conjunto de dados de treinamento de machine learning que estão fortemente correlacionados com o rótulo de destino, mas não estão disponíveis em dados do mundo real. Por exemplo, você pode ter uma coluna em seu conjunto de dados que serve como proxy para a coluna que você deseja prever com seu modelo.

Ao usar a análise Vazamento do destino, você especifica o seguinte:

  • Destino: esse é o recurso sobre o qual você deseja que seu modelo de ML seja capaz de fazer previsões.

  • Tipo de problema: esse é o tipo de problema de ML no qual você está processando. O tipo de problema pode ser classificação ou regressão.

  • (Opcional) Máximo de recursos: esse é o número máximo de recursos a serem apresentados na visualização, que mostra os recursos classificados de acordo com o risco de serem vazamentos de destino.

Para classificação, a análise de vazamento destino usa a área sob o recurso de operação do receptor ou a curva AUC - ROC para cada coluna, até os Recursos máximos. Para regressão, ele usa um coeficiente de determinação ou métrica R2.

A curva AUC-ROC fornece uma métrica preditiva, calculada individualmente para cada coluna usando validação cruzada, em uma amostra de aproximadamente até 1000 linhas. Uma pontuação de 1 indica habilidades preditivas perfeitas, o que geralmente indica vazamento do destino. Uma pontuação de 0,5 ou menos indica que as informações na coluna não poderiam fornecer, por si só, nenhuma informação útil para prever o destino. Embora seja possível que uma coluna seja pouco informativa por si só, mas seja útil na previsão do destino quando usada em conjunto com outras características, uma pontuação baixa pode indicar que o recurso é redundante.

Multicolinearidade

A multicolinearidade é uma circunstância em que duas ou mais variáveis preditoras estão relacionadas entre si. As variáveis preditoras são os recursos do seu conjunto de dados que você está usando para prever uma variável destino. Quando você tem multicolinearidade, as variáveis preditoras não são apenas preditivas da variável destino, mas também preditivas umas das outras.

Você pode usar o Fator de inflação de variância (VIF), a Análise de componentes principais (PCA) ou a seleção do recurso Lasso como medidas para a multicolinearidade em seus dados. Para obter mais informações, consulte.

Variance Inflation Factor (VIF)

O Fator de inflação de variância (VIF) é uma medida de colinearidade entre pares de variáveis. O Data Wrangler retorna uma pontuação VIF como uma medida de quão estreitamente as variáveis estão relacionadas entre si. Uma pontuação de VIF é um número positivo que é maior ou igual a 1.

Uma pontuação de 1 significa que a variável não está correlacionada com as outras variáveis. Pontuações maiores que 1 indicam maior correlação.

Teoricamente, você pode ter uma pontuação de VIF com um valor infinito. O Data Wrangler reduz as pontuações mais altas para 50. Se você tiver uma pontuação de VIF maior que 50, o Data Wrangler define a pontuação como 50.

Você pode usar as seguintes diretrizes para interpretar suas pontuações de VIF:

  • Uma pontuação de VIF menor ou igual a 5 indica que as variáveis estão moderadamente correlacionadas com as outras variáveis.

  • Uma pontuação de VIF menor ou igual a 5 indica que as variáveis estão moderadamente correlacionadas com as outras variáveis.

Principle Component Analysis (PCA)

A Análise de Componentes Principais (PCA) mede a variação dos dados em diferentes direções no espaço de recursos. O espaço de recursos consiste em todas as variáveis preditoras que você usa para prever a variável destino em seu conjunto de dados.

Por exemplo, se você está tentando prever quem sobreviveu no RMS Titanic depois que ele atingiu um iceberg, seu espaço especial pode incluir a idade, o sexo e a tarifa que os passageiros pagaram.

A partir do espaço de recursos, o PCA gera uma lista ordenada de variações. Essas variações também são conhecidas como valores singulares. Os valores na lista de variâncias são maiores ou iguais a 0. Podemos usá-los para determinar quanta multicolinearidade existe em nossos dados.

Quando os números são aproximadamente uniformes, os dados têm pouquíssimas instâncias de multicolinearidade. Quando há muita variabilidade entre os valores, temos muitos exemplos de multicolinearidade. Antes de executar o PCA, o Data Wrangler normaliza cada recurso para ter uma média de 0 e um desvio padrão de 1.

nota

O PCA nessa circunstância também pode ser chamado de Decomposição de Valor Singular (SVD).

Lasso feature selection

A seleção de recursos do Lasso usa a técnica de regularização L1 para incluir apenas os recursos mais preditivos em seu conjunto de dados.

Tanto para classificação quanto para regressão, a técnica de regularização gera um coeficiente para cada recurso. O valor absoluto do coeficiente fornece uma pontuação de importância para o recurso. Uma pontuação de importância mais alta indica que é mais preditiva da variável-destino. Um método comum de seleção de características é utilizar todas as características que têm um coeficiente lasso não nulo.

Detecte anomalias em dados de séries temporais

Você pode usar a visualização de detecção de anomalias para ver valores discrepantes em seus dados de séries temporais. Para entender o que determina uma anomalia, você precisa entender que decompomos a série temporal em um termo previsto e um termo de erro. Tratamos a sazonalidade e a tendência da série temporal como o termo previsto. Tratamos os resíduos como o termo de erro.

Para o termo de erro, você especifica um limite como o número de desvios padrão que o resíduo pode afastar da média para que seja considerado uma anomalia. Por exemplo, é possível especificar um limite como sendo 3 desvios padrão. Qualquer resíduo maior que 3 desvios padrão da média é uma anomalia.

Você pode usar o procedimento a seguir para realizar uma análise de detecção de anomalias.

  1. Abra seu fluxo de dados do Data Wrangler.

  2. No seu fluxo de dados, em Tipos de dados, escolha o + e selecione Adicionar análise.

  3. Para Tipo de análise, escolha Séries temporais.

  4. Para Visualização, escolha Detecção de anomalias.

  5. Em Limite de anomalia, escolha o limite em que um valor é considerado uma anomalia.

  6. Escolha Visualizar para gerar uma visualização prévia da análise.

  7. Escolha Adicionar para adicionar a transformação ao fluxo de dados do Data Wrangler.

Decomposição de tendências sazonais em dados de séries temporais

Você pode determinar se há sazonalidade em seus dados de séries temporais usando a visualização de Decomposição de tendências sazonais. Usamos o método STL (Decomposição de tendência sazonal usando LOESS) para realizar a decomposição. Decompomos a série temporal em seus componentes sazonais, de tendência e residuais. A tendência reflete a progressão a longo prazo da série. O componente sazonal é um sinal que se repete em um período de tempo. Depois de remover a tendência e os componentes sazonais da série temporal, você tem o resíduo.

Você pode usar o procedimento a seguir para realizar uma análise de decomposição de tendência sazonal.

  1. Abra seu fluxo de dados do Data Wrangler.

  2. No seu fluxo de dados, em Tipos de dados, escolha o + e selecione Adicionar análise.

  3. Para Tipo de análise, escolha Séries temporais.

  4. Para Visualização, escolha Decomposição de tendências sazonais.

  5. Em Limite de anomalia, escolha o limite em que um valor é considerado uma anomalia.

  6. Escolha Visualizar para gerar uma visualização prévia da análise.

  7. Escolha Adicionar para adicionar a transformação ao fluxo de dados do Data Wrangler.

Crie visualizações personalizadas

Você pode adicionar uma análise ao seu fluxo do Data Wrangler para criar uma visualização personalizada. Seu conjunto de dados, com todas as transformações que você aplicou, está disponível como Pandas. DataFrame O Data Wrangler usa a variável df para armazenar o quadro de dados. Você acessa o quadro de dados chamando a variável.

Você deve fornecer a variável de saída, chart, para armazenar um gráfico de saída do Altair. Por exemplo, você pode usar o seguinte bloco de código para criar um histograma personalizado usando o conjunto de dados do Titanic.

import altair as alt df = df.iloc[:30] df = df.rename(columns={"Age": "value"}) df = df.assign(count=df.groupby('value').value.transform('count')) df = df[["value", "count"]] base = alt.Chart(df) bar = base.mark_bar().encode(x=alt.X('value', bin=True, axis=None), y=alt.Y('count')) rule = base.mark_rule(color='red').encode( x='mean(value):Q', size=alt.value(5)) chart = bar + rule
Para criar uma visualização personalizada:
  1. Ao lado do nó que contém a transformação que você gostaria de visualizar, escolha o +.

  2. Escolha Adicionar análise.

  3. Em Tipo de análise, escolha Visualização personalizada.

  4. Em Nome da análise, especifique um nome.

  5. Insira seu código na caixa do código.

  6. Escolha Visualizar para visualizar sua visualização.

  7. Escolha Salvar para adicionar sua visualização.

Se você não souber como usar o pacote de visualização Altair em Python, você pode usar trechos de código personalizados para ajudá-lo a começar.

Data Wrangler possui uma coleção pesquisável de trechos de código de visualização. Para usar um trecho de visualização, escolha Pesquisar trechos de exemplo e especifique uma consulta na barra de pesquisa.

O exemplo a seguir usa o trecho de código para um gráfico de dispersão com bins. Traça um histograma para 2 dimensões.

Os trechos de código possuem comentários para ajudar você a entender as alterações que precisa fazer no código. Normalmente, é necessário especificar os nomes das colunas do seu conjunto de dados no código.

import altair as alt # Specify the number of top rows for plotting rows_number = 1000 df = df.head(rows_number) # You can also choose bottom rows or randomly sampled rows # df = df.tail(rows_number) # df = df.sample(rows_number) chart = ( alt.Chart(df) .mark_circle() .encode( # Specify the column names for binning and number of bins for X and Y axis x=alt.X("col1:Q", bin=alt.Bin(maxbins=20)), y=alt.Y("col2:Q", bin=alt.Bin(maxbins=20)), size="count()", ) ) # :Q specifies that label column has quantitative type. # For more details on Altair typing refer to # https://altair-viz.github.io/user_guide/encoding.html#encoding-data-types