Formatos de conjuntos de datos Métrica objetiva

Formato de conjuntos de datos y métrica objetivo para la clasificación de textos

En esta sección, descubriremos cuáles son los formatos disponibles para los conjuntos de datos utilizados en la clasificación de textos, y veremos cuál es la métrica utilizada para evaluar la calidad predictiva de los candidatos a modelo de machine learning. Las métricas calculadas para los candidatos se especifican mediante una serie de MetricDatumtipos.

Formatos de conjuntos de datos

Piloto automático admite datos tabulares formateados como archivos CSV o como archivos Parquet. En los datos tabulares, cada columna contiene una característica con un tipo de datos específico y cada fila contiene una observación. Las propiedades de estos dos formatos de archivo difieren considerablemente.

El CSV (comma-separated-values) es un formato de archivo basado en filas que almacena los datos en texto plano legible para las personas y es una opción popular para el intercambio de datos, ya que es compatible con una amplia gama de aplicaciones.
Parquet es un formato de archivo basado en columnas en el que los datos se almacenan y procesan de forma más eficiente que en los formatos de archivo basados en filas. Esto los convierte en una mejor opción para los problemas en macrodatos.

Los tipos de datos aceptados para las columnas son numéricos, categóricos y de texto.

El piloto automático permite crear modelos de aprendizaje automático en conjuntos de datos grandes de hasta cientos de. GBs Para obtener más información sobre los límites de recursos predeterminados para los conjuntos de datos de entrada y cómo aumentarlos, consulta las cuotas de Amazon SageMaker Autopilot.

Métrica objetiva

La siguiente lista contiene los nombres de las métricas que están disponibles actualmente para medir el rendimiento de los modelos para la clasificación de textos.

Accuracy: La relación entre el número de elementos clasificados correctamente y el número total de elementos clasificados (correcta e incorrectamente). La precisión mide el grado de aproximación de los valores de clase pronosticados con respecto a los valores reales. Los valores de las métricas de precisión varían entre cero (0) y uno (1). Un valor de 1 indica una precisión perfecta y un 0 indica una imprecisión perfecta.

Aviso JavaScript está desactivado o no está disponible en su navegador.

Para utilizar la documentación de AWS, debe estar habilitado JavaScript. Para obtener más información, consulte las páginas de ayuda de su navegador.

Convenciones del documento

Creación de un trabajo de clasificación de texto mediante la API de AutoML

Implementación de modelos de piloto automático para la predicción