Información sobre los datos y la calidad de los datos - Amazon SageMaker

Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.

Información sobre los datos y la calidad de los datos

Utilice el Informe de información y calidad de los datos para realizar un análisis de los datos que ha importado a Data Wrangler. Se recomienda crear el informe después de importar el conjunto de datos. Puede utilizar informe como ayuda para limpiar y procesar los datos. Le proporciona información como el número de valores ausentes y el número de valores atípicos. Si tiene problemas con los datos, como una fuga de objetivos o un desequilibrio, el informe de información puede indicarle esos problemas.

Utilice el siguiente procedimiento para crear un informe de información y calidad de los datos. Se supone que ya ha importado un conjunto de datos a su flujo de Data Wrangler.

Para crear un informe de información y calidad de datos
  1. Elija el signo + junto a un nodo del flujo de Data Wrangler.

  2. Seleccione Obtener información sobre los datos.

  3. En Nombre del análisis, especifique un nombre para el informe de información.

  4. De forma opcional, en Columna objetivo, especifique la columna objetivo.

  5. En Tipo de problema, especifique Regresión o Clasificación.

  6. Para Tamaño de los datos, especifique uno de los siguientes valores:

    • 50 K: utiliza las primeras 50 000 filas del conjunto de datos que ha importado para crear el informe.

    • Conjunto de datos completo: utiliza todo el conjunto de datos que ha importado para crear el informe.

    nota

    Para crear un informe de información y calidad de los datos sobre todo el conjunto de datos se utiliza un trabajo SageMaker de procesamiento de Amazon. Un trabajo de SageMaker procesamiento proporciona los recursos informáticos adicionales necesarios para obtener información sobre todos sus datos. Para obtener más información sobre los trabajos de SageMaker procesamiento, consulteUtilice trabajos de procesamiento para ejecutar cargas de trabajo de transformación de datos.

  7. Seleccione Crear.

Los siguientes temas muestran las secciones del informe:

Puede descargar el informe o verlo en línea. Para descargar el informe, pulse el botón de descarga en la esquina superior derecha de la pantalla. En la siguiente imagen se muestra el botón.

Ejemplo que muestra el botón de descarga.

Resumen

El informe de análisis contiene un breve resumen de los datos que incluye información general, como valores ausentes, valores no válidos, tipos de características, recuentos de valores atípicos, etc. También puede incluir advertencias de alta gravedad que indiquen posibles problemas con los datos. Se recomienda investigar las advertencias.

A continuación, se muestra un ejemplo de este tipo de respuesta.

Ejemplo de resumen de informe.

Columna objetivo

Cuando crea el informe de información y calidad de los datos, Data Wrangler le ofrece la opción de seleccionar una columna objetivo. La columna objetivo es una columna que intenta predecir. Cuando se elige una columna objetivo, Data Wrangler crea automáticamente un análisis de la columna objetivo. También clasifica las características en el orden de su poder predictivo. Al seleccionar una columna objetivo, debe especificar si va a intentar resolver un problema de regresión o de clasificación.

Para la clasificación, Data Wrangler muestra una tabla y un histograma de las clases más frecuentes. Una clase es una categoría. También presenta observaciones, o filas, con un valor objetivo que falta o que no es válido.

La siguiente imagen muestra un ejemplo de análisis de la columna objetivo para un problema de clasificación.

Ejemplo de análisis de la columna objetivo.

Para la regresión, Data Wrangler muestra un histograma de todos los valores de la columna objetivo. También presenta observaciones, o filas, con un valor objetivo que falta, que no es válido o que es atípico.

La siguiente imagen muestra un ejemplo de análisis de la columna objetivo para un problema de regresión.

Ejemplo de análisis de la columna objetivo.

Modelo rápido

El Modelo rápido proporciona una estimación de la calidad prevista de un modelo que se entrena con sus datos.

Data Wrangler divide los datos en pliegues de entrenamiento y validación. Utiliza el 80 % de las muestras para el entrenamiento y el 20 % de los valores para la validación. Para la clasificación, la muestra se divide estratificadamente. Para una división estratificada, cada partición de datos tiene la misma proporción de etiquetas. En lo que se refiere a los problemas de clasificación, es importante tener la misma proporción de etiquetas entre los pliegues de entrenamiento y de clasificación. Data Wrangler entrena el XGBoost modelo con los hiperparámetros predeterminados. Aplica una parada temprana a los datos de validación y realiza un preprocesamiento mínimo de la característica.

En el caso de los modelos de clasificación, Data Wrangler devuelve un resumen del modelo y una matriz de confusión.

A continuación, se muestra un ejemplo de un resumen de un modelo de clasificación. Para obtener más información acerca de la información que devuelve, consulte Definiciones.

Ejemplo de resumen del modelo de clasificación.

A continuación, se muestra un ejemplo de una matriz de confusión que devuelve el modelo rápido.

Ejemplo de matriz de confusión.

Una matriz de confusión le ofrece la siguiente información:

  • El número de veces que la etiqueta predicha coincide con la etiqueta verdadera.

  • El número de veces que la etiqueta predicha no coincide con la etiqueta verdadera.

La etiqueta verdadera representa una observación real de los datos. Por ejemplo, si utiliza un modelo para detectar transacciones fraudulentas, la etiqueta verdadera representa una transacción que en realidad es fraudulenta o no fraudulenta. La etiqueta predicha representa la etiqueta que el modelo asigna a los datos.

Puede usar la matriz de confusión para ver lo bien que predice el modelo la presencia o ausencia de una condición. Si predice transacciones fraudulentas, puede utilizar la matriz de confusión para hacerse una idea de la sensibilidad y la especificidad del modelo. La sensibilidad se refiere a la capacidad del modelo de detectar transacciones fraudulentas. La especificidad se refiere a la capacidad del modelo de evitar detectar transacciones no fraudulentas como fraudulentas.

A continuación, se muestra un ejemplo de los resultados de un modelo rápido para un problema de regresión.

Ejemplo de los resultados rápidos del modelo para un problema de regresión.

Resumen de características

Al especificar una columna objetivo, Data Wrangler ordena las características por su poder de predicción. El poder de predicción se mide en los datos después de dividirlos en un 80 % de pliegues de entrenamiento y un 20 % de pliegues de validación. Data Wrangler encaja un modelo para cada característica independiente en el pliegue de entrenamiento. Aplica un preprocesamiento mínimo de la característica y mide el rendimiento de la predicción en los datos de validación.

Normaliza las puntuaciones al rango [0,1]. Las puntuaciones de predicción más altas indican columnas que son más útiles para predecir el objetivo por sí mismas. Las puntuaciones más bajas apuntan a columnas que no predicen la columna objetivo.

No es habitual que una columna que no sea predictiva por sí sola lo sea cuando se usa junto con otras columnas. Puede utilizar con confianza las puntuaciones de predicción para determinar si una característica de su conjunto de datos es predictiva.

Una puntuación baja suele indicar que la característica es redundante. Una puntuación de 1 implica una capacidad predictiva perfecta, lo que a menudo es señal de una fuga de objetivos. La fuga de objetivos suele producirse cuando el conjunto de datos contiene una columna que no está disponible en el momento de la predicción. Por ejemplo, podría ser un duplicado de la columna objetivo.

Los siguientes son ejemplos de la tabla y el histograma que muestran el valor de predicción de cada característica.

Ejemplo de tabla resumida que muestra el valor de predicción de cada característica.
Ejemplo de histograma que muestra el valor de predicción de cada entidad.

Muestras

Data Wrangler proporciona información sobre si sus muestras son anómalas o si hay duplicados en el conjunto de datos.

Data Wrangler detecta muestras anómalas mediante el algoritmo de bosque de aislamiento. El bosque de aislamiento asocia una puntuación de anomalía a cada muestra (fila) del conjunto de datos. Las puntuaciones de anomalías bajas indican muestras anómalas. Las puntuaciones altas se asocian a muestras no anómalas. Las muestras con una puntuación de anomalía negativa suelen considerarse anómalas y las muestras con una puntuación de anomalía positiva se consideran no anómalas.

Al observar una muestra que podría ser anómala, se recomienda prestar atención a los valores inusuales. Por ejemplo, es posible que tenga valores anómalos que se deban a errores en la recopilación y el procesamiento de los datos. El siguiente es un ejemplo de las muestras más anómalas según la implementación del algoritmo de bosque de aislamiento de Data Wrangler. Se recomienda utilizar el conocimiento del dominio y la lógica empresarial al examinar las muestras anómalas.

Data Wrangler detecta filas duplicadas y calcula la proporción de filas duplicadas en los datos. Algunos orígenes de datos pueden incluir duplicados válidos. Otros orígenes de datos pueden tener duplicados que indiquen problemas en la recopilación de los datos. Las muestras duplicadas que resultan de una recopilación de datos defectuosa podrían interferir con los procesos de machine learning, que se basan en dividir los datos en grupos independientes de entrenamiento y validación.

Los siguientes son los elementos del informe de información que pueden verse afectados por la duplicación de muestras:

  • Modelo rápido

  • Estimación de la potencia predictiva

  • Ajuste automático de hiperparámetros

Puede eliminar las muestras duplicadas del conjunto de datos mediante la transformación Eliminar duplicados en Administrar filas. Data Wrangler le muestra las filas que se duplican con más frecuencia.

Definiciones

A continuación, se muestran las definiciones de los términos técnicos que se utilizan en el informe de información de datos.

Feature types

Las siguientes son las definiciones de cada uno de los tipos de características:

  • Numérica: los valores numéricos pueden ser flotantes o enteros, como la edad o los ingresos. Los modelos de machine learning suponen que los valores numéricos están ordenados y que se define una distancia sobre ellos. Por ejemplo, 3 está más cerca de 4 que de 10 y 3 < 4 < 10.

  • Categórica: las entradas de la columna pertenecen a un conjunto de valores únicos, que suele ser mucho menor que el número de entradas de la columna. Por ejemplo, una columna de longitud 100 podría contener los valores únicos Dog, Cat y Mouse. Los valores pueden ser numéricos, de texto o una combinación de ambos. Horse, House, 8, Love y 3.1 serían todos valores válidos y podrían encontrarse en la misma columna categórica. El modelo de machine learning no supone el orden ni la distancia en los valores de las características categóricas, a diferencia de las características numéricas, incluso cuando todos los valores son números.

  • Binaria: las características binarias son un tipo de característica categórica especial en la que la cardinalidad del conjunto de valores únicos es 2.

  • Texto: una columna de texto contiene muchos valores únicos no numéricos. En casos extremos, todos los elementos de la columna son únicos. En un caso extremo, no hay dos entradas iguales.

  • Fecha y hora: una columna de fecha y hora contiene información sobre la fecha o la hora. Puede contener información tanto de la fecha como de la hora.

Feature statistics

Las siguientes son definiciones para cada una de las estadísticas de la característica:

  • Potencia predictiva: la potencia predictiva mide la utilidad de la columna para predecir el objetivo.

  • Valores atípicos (en columnas numéricas): Data Wrangler detecta los valores atípicos mediante dos estadísticas que se basan en valores atípicos: la mediana y la desviación estándar sólida (). RSTD RSTDse obtiene recortando los valores de las características al rango [percentil 5, percentil 95] y calculando la desviación estándar del vector recortado. Todos los valores superiores a la mediana + 5 * RSTD o inferiores a la mediana -5 * se consideran valores RSTD atípicos.

  • Sesgo (en columnas numéricas): el sesgo mide la simetría de la distribución y se define como el tercer momento de la distribución dividido por la tercera potencia de la desviación estándar. La asimetría de la distribución normal o de cualquier otra distribución simétrica es cero. Los valores positivos implican que la cola derecha de la distribución es más larga que la cola izquierda. Los valores negativos implican que la cola izquierda de la distribución es más larga que la cola derecha. Como regla general, una distribución se considera asimétrica cuando el valor absoluto de la asimetría es superior a 3.

  • Curtosis (en columnas numéricas): la curtosis de Pearson mide el peso de la cola de la distribución. Se define como el cuarto momento de la distribución dividido por el cuadrado del segundo momento. La curtosis de la distribución normal es 3. Los valores de curtosis inferiores a 3 implican que la distribución se concentra alrededor de la media y que las colas son más ligeras que las colas de la distribución normal. Los valores de curtosis superiores a 3 implican colas con más peso o valores atípicos.

  • Valores ausentes: los objetos de tipo nulo, las cadenas vacías y las cadenas compuestas únicamente por espacios en blanco se consideran valores ausentes.

  • Valores válidos para las características numéricas o el objetivo de regresión: todos los valores que se pueden convertir en flotantes finitos son válidos. Los valores ausentes no son válidos.

  • Valores válidos para características categóricas, binarias o de texto, o para el objetivo de clasificación: todos los valores que no faltan son válidos.

  • Características de fecha y hora: todos los valores que puede convertir en un objeto de fecha y hora son válidos. Los valores ausentes no son válidos.

  • Valores no válidos: valores ausentes o que no se pueden convertir correctamente. Por ejemplo, en una columna numérica, no puede convertir la cadena "six" o un valor nulo.

Quick model metrics for regression

Las siguientes son las definiciones de las métricas del modelo rápido:

  • R2 (o coeficiente de determinación): R2 es la proporción de la variación en el objetivo que predice el modelo. R2 está en el rango de [-inft, 1]. 1 es la puntuación del modelo que predice el objetivo a la perfección y 0 es la puntuación del modelo trivial que siempre predice la media objetivo.

  • MSEo error cuadrático medio: MSE está en el rango [0, infty]. 0 es la puntuación del modelo que predice perfectamente el objetivo.

  • MAEo error absoluto medio: MAE se encuentra en el rango [0, infty] donde 0 es la puntuación del modelo que predice perfectamente el objetivo.

  • RMSEo error cuadrático medio: RMSE se encuentra en el rango [0, infty] donde 0 es la puntuación del modelo que predice perfectamente el objetivo.

  • Error máximo: el valor absoluto máximo del error en el conjunto de datos. El error máximo se encuentra en el rango [0, infty] donde 0 es la puntuación del modelo que predice perfectamente el objetivo.

  • Mediana del error absoluto: la mediana del error absoluto se encuentra en el rango [0, infty] donde 0 es la puntuación del modelo que predice perfectamente el objetivo.

Quick model metrics for classification

Las siguientes son las definiciones de las métricas del modelo rápido:

  • Precisión: la precisión es la proporción de muestras que se predicen con precisión. La precisión está en el rango [0, 1]. 0 es la puntuación del modelo que predice todas las muestras de forma incorrecta y 1 es la puntuación del modelo perfecto.

  • Precisión equilibrada: la precisión equilibrada es la proporción de muestras que se predicen con precisión cuando se ajustan las ponderaciones de las clases para equilibrar los datos. Se les da la misma importancia a todas las clases, independientemente de su frecuencia. La precisión equilibrada se encuentra en el rango [0, 1]. 0 es la puntuación del modelo que predice erróneamente todas las muestras. 1 es la puntuación del modelo perfecto.

  • AUC(clasificación binaria): esta es el área bajo la curva característica de funcionamiento del receptor. AUCestá en el rango [0, 1] en el que un modelo aleatorio devuelve una puntuación de 0,5 y el modelo perfecto devuelve una puntuación de 1.

  • AUC(OVR) — Para la clasificación multiclase, se trata del área situada bajo la curva característica de funcionamiento del receptor, calculada por separado para cada etiqueta, utilizando el uno frente al resto. Data Wrangler informa del promedio de las áreas. AUCse encuentra en el rango [0, 1] en el que un modelo aleatorio devuelve una puntuación de 0,5 y el modelo perfecto devuelve una puntuación de 1.

  • Precisión: la precisión se define para una clase específica. La precisión es la fracción de positivos verdaderos de todas las instancias en las que el modelo clasificó como esa clase. La precisión está en el rango [0, 1]. 1 es la puntuación del modelo que no tiene falsos positivos para la clase. Para la clasificación binaria, Data Wrangler informa de la precisión de la clase positiva.

  • Recuperación: la recuperación se define para una clase específica. La recuperación es la fracción de las instancias de clase pertinentes que se recuperan correctamente. La recuperación está en el rango [0, 1]. 1 es la puntuación del modelo que clasifica correctamente todas las instancias de la clase. Para la clasificación binaria, Data Wrangler informa de la recuperación de la clase positiva.

  • F1: F1 se define para una clase específica. Es la media armónica entre la precisión y la recuperación. F1 está en el rango [0, 1]. 1 es la puntuación del modelo perfecto. Para la clasificación binaria, Data Wrangler indica la F1 para las clases con valores positivos.

Textual patterns

Los patrones describen el formato textual de una cadena utilizando un formato fácil de leer. A continuación se muestran ejemplos de patrones de texto:

  • {digits:4-7}” describe una secuencia de dígitos que tienen una longitud entre 4 y 7.

  • {alnum:5}” describe una cadena alfanumérica con una longitud exacta de 5.

Data Wrangler infiere los patrones observando muestras de cadenas no vacías a partir de sus datos. Puede describir muchos de los patrones más utilizados. La confianza expresada como porcentaje indica qué cantidad de datos se estima que coincide con el patrón. Con el patrón textual, puede ver qué filas de los datos tiene que corregir o eliminar.

A continuación se describen los patrones que Data Wrangler puede reconocer:

Patrón Formato textual

{alnum}

Cadenas alfanuméricas

{any}

Cualquier cadena de caracteres de palabra

{digits}

Una secuencia de dígitos

{lower}

Una palabra en minúscula

{mixed}

Una palabra con mayúsculas y minúsculas

{name}

Una palabra que comienza por una letra mayúscula

{upper}

Una palabra mayúscula

{whitespace}

Caracteres de espacio en blanco

Un carácter de palabra es un carácter de subrayado o un carácter que puede aparecer en una palabra en cualquier idioma. Por ejemplo, las cadenas “Hello_word” y “écoute” están compuestas por caracteres de palabra. Tanto la “H” como la “é” son ejemplos de caracteres de palabra.