Formato de conjuntos de dados e métrica objetiva para classificação de texto - Amazon SageMaker

As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.

Formato de conjuntos de dados e métrica objetiva para classificação de texto

Nesta seção, aprendemos sobre os formatos disponíveis para conjuntos de dados usados na classificação de texto, bem como a métrica usada para avaliar a qualidade preditiva dos candidatos ao modelo de machine learning. As métricas calculadas para candidatos são especificadas usando uma variedade de MetricDatumtipos.

Formatos de conjuntos de dados

O Autopilot suporta dados tabulares formatados como arquivos CSV ou como arquivos Parquet. Para dados tabulares, cada coluna contém um atributo com um tipo de dados específico e cada linha contém uma observação. As propriedades desses dois formatos de arquivo diferem consideravelmente.

  • CSV (comma-separated-values) é um formato de arquivo baseado em linhas que armazena dados em texto simples legível por humanos, o que é uma escolha popular para troca de dados, pois são suportados por uma ampla variedade de aplicativos.

  • O Parquet é um formato de arquivo baseado em colunas em que os dados são armazenados e processados com mais eficiência do que os formatos de arquivo baseados em linhas. Isso os torna uma opção melhor para problemas de big data.

Os tipos de dados aceitos para colunas incluem texto numérico, categórico.

O Autopilot oferece suporte à criação de modelos de machine learning em grandes conjuntos de dados de até centenas de GBs. Para obter detalhes sobre os limites de recursos padrão para conjuntos de dados de entrada e como aumentá-los, consulte as cotas do Amazon SageMaker Autopilot.

Métrica objetiva

A lista a seguir contém os nomes das métricas atualmente disponíveis para medir a performance dos modelos de classificação de texto.

Accuracy

A razão entre o número de itens classificados corretamente e o número total de itens classificados (correta e incorretamente). A precisão mede o quão próximos estão os valores de classe previstos dos valores reais. Os valores das métricas de precisão variam entre zero (0) e um (1). Um valor de 1 indica precisão perfeita e 0 indica imprecisão perfeita.