Utilice un widget interactivo de preparación de datos en un bloc de notas clásico de Amazon SageMaker Studio para obtener información valiosa sobre los datos - Amazon SageMaker

Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.

Utilice un widget interactivo de preparación de datos en un bloc de notas clásico de Amazon SageMaker Studio para obtener información valiosa sobre los datos

Utilice el widget de preparación de datos de Data Wrangler para interactuar con los datos, obtener visualizaciones, explorar información útil y solucionar problemas de calidad de los datos.

Puede acceder al widget de preparación de datos desde una libreta Amazon SageMaker Studio Classic. Para cada columna, el widget crea una visualización que le ayuda a comprender mejor su distribución. Si una columna tiene problemas con la calidad de los datos, aparece una advertencia en su encabezado.

Para ver los problemas de calidad de los datos, seleccione el encabezado de la columna que muestra la advertencia. Puede usar la información que obtenga de las observaciones y las visualizaciones para aplicar las transformaciones integradas en el widget para ayudarle a solucionar los problemas.

Por ejemplo, el widget puede detectar que hay una columna que solo tiene un valor único y mostrar una advertencia. La advertencia ofrece la opción de eliminar la columna del conjunto de datos.

Introducción al uso del widget

Utilice la siguiente información como ayuda para comenzar a utilizar un cuaderno.

Abre una libreta en Amazon SageMaker Studio Classic. Para obtener información sobre cómo abrir un cuaderno, consulte Crear o abrir un bloc de notas Amazon SageMaker Studio Classic.

importante

Para ejecutar el widget, el cuaderno debe utilizar una de las siguientes imágenes:

  • Python 3 (Ciencia de datos) con Python 3.7

  • Python 3 (Ciencia de datos 2.0) con Python 3.8

  • Python 3 (Ciencia de datos 3.0) con Python 3.10

  • SparkAnalytics 1.0

  • SparkAnalytics 2.0

Para obtener más información acerca de las imágenes base, consulte SageMaker Imágenes de Amazon disponibles para su uso con Studio Classic.

Utilice el siguiente código para importar el widget de preparación de datos y pandas. El widget utiliza marcos de datos de pandas para analizar los datos.

import pandas as pd import sagemaker_datawrangler

El siguiente código de ejemplo carga un archivo en el marco de datos denominado df.

df = pd.read_csv("example-dataset.csv")

Puede usar un conjunto de datos en cualquier formato que pueda cargar como un objeto de marco de datos de pandas. Para obtener más información sobre los formatos de pandas, consulte IO tools (text, CSV, HDF5, …).

La siguiente celda ejecuta la variable df para iniciar el widget.

df

En la parte superior del marco de datos, se incluyen las siguientes opciones:

  • Ver la tabla de Pandas: cambia entre la visualización interactiva y una tabla de pandas.

  • Usar todas las filas del conjunto de datos para calcular la información. El uso de todo el conjunto de datos podría aumentar el tiempo que se tarda en generar la información. Si no selecciona la opción, Data Wrangler calcula la información de las primeras 10 000 filas del conjunto de datos.

El marco de datos muestra las primeras 1000 filas del conjunto de datos. El encabezado de cada columna tiene un gráfico de barras apiladas que muestra las características de la columna. Muestra la proporción de valores válidos, valores no válidos y valores ausentes. Puede pasar el ratón sobre las distintas partes del gráfico de barras apiladas para obtener los porcentajes calculados.

Cada columna tiene una visualización en el encabezado. A continuación se muestran los tipos de visualizaciones que pueden tener las columnas:

  • Categórico: gráfico de barras

  • Numérico: histograma

  • Fecha y hora: gráfico de barras

  • Texto: gráfico de barras

Para cada visualización, el widget de preparación de datos resalta los valores atípicos en naranja.

Al elegir una columna, se abre un panel lateral. El panel lateral muestra la pestaña Observaciones. El panel proporciona un recuento de los siguientes tipos de valores:

  • Valores no válidos: valores cuyo tipo no coincide con el tipo de columna.

  • Valores ausentes: valores que faltan, como NaN o None.

  • Valores válidos: valores que no son ni ausentes ni inválidos.

En el caso de las columnas numéricas, la pestaña Observaciones muestra las siguientes estadísticas de resumen:

  • Mínimo: el valor más pequeño.

  • Máximo: el valor más alto.

  • Media: la media de los valores.

  • Modo: el valor que aparece con más frecuencia.

  • Desviación estándar: la desviación estándar de los valores.

En el caso de las columnas categóricas, la pestaña Observaciones muestra las siguientes estadísticas de resumen:

  • Valores únicos: el número de valores únicos en la columna.

  • Superior: el valor que aparece con más frecuencia.

Las columnas que tienen iconos de advertencia en los encabezados tienen problemas de calidad de los datos. Al elegir una columna, se abre la pestaña Calidad de los datos que puede utilizar para buscar transformaciones que le ayuden a solucionar el problema. La advertencia tiene uno de los siguientes niveles de gravedad:

  • Bajo: problemas que tal vez no afecten al análisis, pero cuya solución puede resultar útil.

  • Medio: problemas que probablemente afecten al análisis, pero que probablemente no sea crucial solucionarlos.

  • Alto: problemas graves que se recomienda encarecidamente solucionar.

nota

El widget ordena la columna para mostrar los valores que tienen problemas de calidad de los datos en la parte superior del marco de datos. También resalta los valores que causan los problemas. El color del resaltado corresponde al nivel de gravedad.

En TRANSFORMACIONES SUGERIDAS, puede elegir una transformación para solucionar el problema de calidad de los datos. El widget puede ofrecer varias transformaciones que pueden solucionar el problema. Puede ofrecer recomendaciones para las transformaciones que mejor se adapten al problema. Puede mover el cursor sobre la transformación para obtener más información sobre ella.

Para aplicar una transformación al conjunto de datos, seleccione Aplicar y exportar código. La transformación modifica el conjunto de datos y actualiza la visualización con los valores modificados. El código de la transformación aparece en la siguiente celda del cuaderno. Si aplica transformaciones adicionales al conjunto de datos, el widget anexa las transformaciones a la celda. Puede utilizar el código que genera el widget para hacer lo siguiente:

  • Personalízalo para que se adapte mejor a tus necesidades.

  • Usarlo en sus propios flujos de trabajo.

Para reproducir todas las transformaciones que ha realizado, vuelva a ejecutar todas las celdas del cuaderno.

El widget puede proporcionar información y advertencias para la columna objetivo. La columna objetivo es la columna que intenta predecir. Utilice el siguiente procedimiento para obtener información sobre la columna objetivo.

Para obtener información sobre la columna objetivo, haga lo siguiente.

  1. Elija la columna que va a utilizar como columna objetivo.

  2. Elija Seleccionar como columna objetivo.

  3. Elija el tipo de problema. La información y las advertencias del widget se adaptan a los tipos de problemas. Los tipos de problemas son los siguientes:

    • Clasificación: la columna objetivo contiene datos categóricos.

    • Regresión: la columna objetivo contiene datos numéricos.

  4. Elija Ejecutar.

  5. De forma opcional, en Información de la columna objetivo, elija una de las transformaciones sugeridas.

Referencia para la información y las transformaciones del widget

En el caso de las columnas de características (columnas que no son la columna objetivo), puede obtener la siguiente información para advertirle de problemas con el conjunto de datos.

  • Valores ausentes: en la columna faltan valores como None, NaN (no un número) o NaT (no una marca de tiempo). Muchos algoritmos de machine learning no admiten valores ausentes en los datos de entrada. Por lo tanto, rellenarlos o eliminar las filas con los datos ausentes es un paso crucial para la preparación de los datos. Si aparece la advertencia de valores ausentes, puede utilizar una de las siguientes transformaciones para corregir el problema.

    • Eliminar ausentes: elimina las filas con valores ausentes. Recomendamos eliminar las filas cuando el porcentaje de filas con datos ausentes sea pequeño y no sea apropiado imputar los valores ausentes.

    • Reemplazar por un valor nuevo: reemplaza los valores textuales ausentes por Other. Puede cambiar Other a un valor diferente en el código de salida. Sustituye los valores numéricos ausentes por 0.

    • Reemplazar por media: reemplaza los valores ausentes por la media de la columna.

    • Reemplazar por mediana: reemplaza los valores ausentes por la mediana de la columna.

    • Eliminar columna: elimina la columna con los valores ausentes del conjunto de datos. Se recomienda eliminar toda la columna cuando haya un alto porcentaje de filas en las que falten datos.

  • Valores ausentes encubiertos: la columna tiene valores ausentes encubiertos. Un valor ausente encubierto es un valor que no está codificado explícitamente como valor ausente. Por ejemplo, en lugar de usar NaN para indicar un valor ausente, el valor podría ser Placeholder. Puede utilizar una de las siguientes transformaciones para gestionar los valores ausentes:

    • Eliminar ausentes: elimina las filas con valores ausentes.

    • Reemplazar por un valor nuevo: reemplaza los valores textuales ausentes por Other. Puede cambiar Other a un valor diferente en el código de salida. Sustituye los valores numéricos ausentes por 0.

  • Columna constante: la columna solo tiene un valor. Por lo tanto, no tiene poder predictivo. Se recomienda encarecidamente utilizar la transformación Eliminar columna para eliminar la columna del conjunto de datos.

  • Columna de ID: la columna no tiene valores repetidos. Todos los valores de la columna son únicos. Pueden ser identificadores o claves de bases de datos. Sin información adicional, la columna no tiene poder predictivo. Se recomienda encarecidamente utilizar la transformación Eliminar columna para eliminar la columna del conjunto de datos.

  • Cardinalidad alta: la columna tiene un alto porcentaje de valores únicos. La cardinalidad alta limita el poder predictivo de las columnas categóricas. Examine la importancia de la columna en su análisis y considere la posibilidad de utilizar la transformación Eliminar columnas para eliminarla.

En el caso de la columna objetivo, puede obtener la siguiente información para advertirle de problemas con el conjunto de datos. Puede usar la transformación sugerida que viene con la advertencia para corregir el problema.

  • Tipos de datos mixtos en el objetivo (regresión): hay algunos valores no numéricos en la columna objetivo. Es posible que haya errores en la entrada de datos. Se recomienda eliminar las filas que tienen valores que no se pueden convertir.

  • Etiqueta frecuente: algunos valores de la columna objetivo aparecen con más frecuencia de lo que sería normal en un contexto de regresión. Es posible que haya un error en la recopilación o el procesamiento de los datos. Una categoría que aparezca con frecuencia puede indicar que el valor se utiliza como valor predeterminado o que es un marcador de posición para valores ausentes. Se recomienda usar la transformación Reemplazar por un valor nuevo para reemplazar los valores ausentes por Other.

  • Muy pocas instancias por clase: la columna objetivo tiene categorías que aparecen con poca frecuencia. Algunas de las categorías no tienen filas suficientes para que la columna objetivo resulte útil. Puede usar una de las siguientes transformaciones:

    • Eliminar objetivo poco frecuente: elimina valores únicos con menos de diez observaciones. Por ejemplo, elimina el valor cat si aparece nueve veces en la columna.

    • Reemplazar objetivo poco frecuente: reemplaza las categorías que aparecen con poca frecuencia en el conjunto de datos por el valor Other.

  • Clases demasiado desequilibradas (clasificación multiclase): hay categorías en el conjunto de datos que aparecen con mucha más frecuencia que las demás categorías. El desequilibrio de clases puede afectar a la precisión de la predicción. Para obtener las predicciones más precisas posibles, se recomienda actualizar el conjunto de datos con filas que tengan las categorías que actualmente aparecen con menos frecuencia.

  • Gran cantidad de clases o demasiadas clases: hay una gran cantidad de clases en la columna objetivo. Tener muchas clases puede resultar en tiempos de entrenamiento más largos o en una calidad predictiva deficiente. Se recomienda llevar a cabo una de las siguientes operaciones:

    • Agrupar algunas de las categorías en su propia categoría. Por ejemplo, si seis categorías están estrechamente relacionadas, se recomienda utilizar una sola categoría para ellas.

    • Utilizar un algoritmo de ML que sea resiliente a numerosas categorías.