Formato dei set di dati e parametro obiettivo per la classificazione del testo - Amazon SageMaker

Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.

Formato dei set di dati e parametro obiettivo per la classificazione del testo

In questa sezione apprenderemo i formati disponibili per i set di dati utilizzati nella classificazione del testo e il parametro utilizzato per valutare la qualità predittiva dei modelli di machine learning candidati. Le metriche calcolate per i candidati vengono specificate utilizzando una matrice di MetricDatumtipi.

Formati di set di dati

Autopilot supporta dati tabulari formattati come file CSV o come file Parquet. per i dati tabulari, ogni colonna contiene una funzionalità con un tipo di dati specifico e ogni riga contiene un'osservazione. Le proprietà di questi due formati di file differiscono notevolmente.

  • CSV (comma-separated-values) è un formato di file basato su righe che archivia i dati in testo semplice leggibile dall'uomo, una scelta popolare per lo scambio di dati in quanto sono supportati da un'ampia gamma di applicazioni.

  • Parquet è un formato di file basato su colonne in cui i dati vengono archiviati ed elaborati in modo più efficiente rispetto ai formati di file basati su righe. Ciò li rende un'opzione migliore per i problemi relativi ai big data.

I tipi di dati accettati per le colonne includono testo numerico, categorico.

Autopilot supporta la creazione di modelli di machine learning su set di dati di grandi dimensioni fino a centinaia di GB. Per dettagli sui limiti di risorse predefiniti per i set di dati di input e su come aumentarli, consulta le quote di Amazon SageMaker Autopilot.

Parametro obiettivo

L'elenco seguente contiene i nomi dei parametri attualmente disponibili per misurare le prestazioni dei modelli per la classificazione del testo.

Accuracy

Il rapporto tra il numero di elementi classificati correttamente e il numero totale di elementi classificati (correttamente e erroneamente). La precisione misura quanto i valori delle classi previsti si avvicinano ai valori effettivi. I valori per i parametri di precisione variano tra zero (0) e uno (1). Un valore pari a 1 indica una perfetta precisione e 0 indica una perfetta imprecisione.