Formato de conjuntos de datos y métrica objetivo para la clasificación de textos - Amazon SageMaker

Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.

Formato de conjuntos de datos y métrica objetivo para la clasificación de textos

En esta sección, descubriremos cuáles son los formatos disponibles para los conjuntos de datos utilizados en la clasificación de textos, y veremos cuál es la métrica utilizada para evaluar la calidad predictiva de los candidatos a modelo de machine learning. Las métricas calculadas para los candidatos se especifican mediante una serie de MetricDatumtipos.

Formatos de conjuntos de datos

Piloto automático admite datos tabulares formateados como archivos CSV o como archivos Parquet. En los datos tabulares, cada columna contiene una característica con un tipo de datos específico y cada fila contiene una observación. Las propiedades de estos dos formatos de archivo difieren considerablemente.

  • El CSV (comma-separated-values) es un formato de archivo basado en filas que almacena los datos en texto plano legible para las personas y es una opción popular para el intercambio de datos, ya que es compatible con una amplia gama de aplicaciones.

  • Parquet es un formato de archivo basado en columnas en el que los datos se almacenan y procesan de forma más eficiente que en los formatos de archivo basados en filas. Esto los convierte en una mejor opción para los problemas en macrodatos.

Los tipos de datos aceptados para las columnas son numéricos, categóricos y de texto.

Piloto automático permite crear modelos de machine learning en grandes conjuntos de datos de hasta cientos de GB. Para obtener más información sobre los límites de recursos predeterminados para los conjuntos de datos de entrada y cómo aumentarlos, consulta las cuotas de Amazon SageMaker Autopilot.

Métrica objetiva

La siguiente lista contiene los nombres de las métricas que están disponibles actualmente para medir el rendimiento de los modelos para la clasificación de textos.

Accuracy

La relación entre el número de elementos clasificados correctamente y el número total de elementos clasificados (correcta e incorrectamente). La precisión mide el grado de aproximación de los valores de clase pronosticados con respecto a los valores reales. Los valores de las métricas de precisión varían entre cero (0) y uno (1). Un valor de 1 indica una precisión perfecta y un 0 indica una imprecisión perfecta.