Exploración de los datos mediante el análisis - Amazon SageMaker

Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.

Exploración de los datos mediante el análisis

nota

Solo puede usar el análisis de SageMaker Canvas para modelos basados en conjuntos de datos tabulares. También se excluyen los modelos de predicción de texto de varias categorías.

Con los análisis de Amazon SageMaker Canvas, puede explorar su conjunto de datos y obtener información sobre todas las variables antes de crear un modelo. Puede determinar las relaciones entre las entidades de su conjunto de datos mediante matrices de correlación. Puede usar esta técnica para resumir el conjunto de datos en una matriz que muestre las correlaciones entre dos o más valores. Esto le ayuda a identificar y visualizar los patrones en un conjunto de datos determinado para un análisis de datos avanzado.

La matriz muestra la correlación entre cada característica como positiva, negativa o neutra. Es posible que desee incluir características que tengan una alta correlación entre sí al crear el modelo. Las características que tengan poca o ninguna correlación pueden ser irrelevantes para el modelo, y puede omitirlas al crear el modelo.

Para empezar a utilizar las matrices de correlación en SageMaker Canvas, consulte la siguiente sección.

Creación de una matriz de correlación

Puede crear una matriz de correlación cuando se prepare para construir un modelo en la pestaña Construir de la aplicación SageMaker Canvas.

Para obtener instrucciones acerca de cómo empezar a crear un modelo, consulte Creación de un modelo.

Cuando haya empezado a preparar un modelo en la aplicación SageMaker Canvas, haga lo siguiente:

  1. En la pestaña Compilación, elija el Visualizador de datos.

  2. Seleccione Análisis.

  3. Seleccione Matriz de correlación.

Debería ver una visualización similar a la siguiente captura de pantalla, que muestra hasta 15 columnas del conjunto de datos organizadas en una matriz de correlación.

Captura de pantalla de una matriz de correlación en la aplicación de Canvas.

Después de haber creado la matriz de correlación, puede personalizarla haciendo lo siguiente:

1. Elija sus columnas

Para Columnas, puede seleccionar las columnas que quiera incluir en la matriz. Puede comparar hasta 15 columnas de su conjunto de datos.

nota

Puede usar tipos de columnas numéricas, categóricas o binarias para una matriz de correlación. La matriz de correlación no admite los tipos de columnas de datos de texto o fecha y hora.

Para agregar o eliminar columnas de la matriz de correlación, seleccione y deseleccione las columnas en el panel Columnas. También puede arrastrar y soltar columnas del panel directamente a la matriz. Si su conjunto de datos tiene muchas columnas, puede buscar las columnas que desee en la barra Buscar columnas.

Para filtrar las columnas por tipo de datos, elija la lista desplegable y seleccione Todas, Numéricas o Categóricas. Al seleccionar Todas, se muestran todas las columnas del conjunto de datos, mientras que los filtros Numéricas y Categóricas solo muestran las columnas numéricas o categóricas del conjunto de datos. Tenga en cuenta que los tipos de columnas binarias se incluyen en los filtros de numéricas o categóricas.

Para obtener la mejor información sobre los datos, incluya la columna de destino en la matriz de correlación. Al incluir la columna de destino en la matriz de correlación, aparece como la última característica de la matriz con un símbolo objetivo.

2. Elija el tipo de correlación

SageMaker Canvas admite diferentes tipos de correlación o métodos para calcular la correlación entre las columnas.

Para cambiar el tipo de correlación, utilice el filtro Columnas mencionado en la sección anterior para filtrar por el tipo de columna y las columnas que desee. Debería ver el Tipo de correlación en el panel lateral. Para las comparaciones numéricas, tiene la opción de seleccionar Pearson o Spearman. Para las comparaciones categóricas, el tipo de correlación se establece como MI. Para las comparaciones categóricas y mixtas, el tipo de correlación se establece como Spearman & MI.

Para las matrices que solo comparan columnas numéricas, el tipo de correlación es Pearson o Spearman. La medida de Pearson evalúa la relación lineal entre dos variables continuas. La medida de Spearman evalúa la relación monótona entre dos variables. Tanto para Pearson como para Spearman, la escala de correlación varía de -1 a 1; cada extremo de la escala indica una correlación perfecta (una relación 1:1 directa) y 0 indica que no hay correlación. Es posible que desee seleccionar Pearson si los datos tienen relaciones más lineales (como lo revela una visualización de un gráfico de dispersión). Si los datos no son lineales o contienen una mezcla de relaciones lineales y monótonas, puede que prefiera seleccionar Spearman.

Para las matrices que solo comparan columnas categóricas, el tipo de correlación se establece como Clasificación de información mutua (MI). El valor MI es una medida de la dependencia mutua entre dos variables aleatorias. La medida MI está en una escala de 0 a 1, donde 0 indica que no hay correlación y 1 indica una correlación perfecta.

Para las matrices que comparan una combinación de columnas numéricas y categóricas, el tipo de correlación Spearman y MI es una combinación de los tipos de correlación Spearman y MI. Para las correlaciones entre dos columnas numéricas, la matriz muestra el valor de Spearman. Para las correlaciones entre una columna numérica y una categórica o dos columnas categóricas, la matriz muestra el valor MI.

Por último, recuerde que la correlación no indica necesariamente causalidad. Un valor de correlación fuerte solo indica que existe una relación entre dos variables, pero es posible que las variables no tengan una relación causal. Revise cuidadosamente las columnas de interés para evitar sesgos al crear el modelo.

3. Filtre sus correlaciones

En el panel lateral, puede utilizar la característica Filtrar correlaciones para filtrar el rango de valores de correlación que desee incluir en la matriz. Por ejemplo, si desea filtrar entidades que solo tengan una correlación positiva o neutra, puede establecer el valor mínimo en 0 y el máximo en 1 (los valores válidos son -1 a 1).

Para las comparaciones de Spearman y Pearson, puede establecer el rango de Correlaciones del filtro entre -1 y 1, donde 0 significa que no hay correlación. -1 y 1 significan que las variables tienen una fuerte correlación negativa o positiva, respectivamente.

En las comparaciones de MI, el rango de correlación solo va de 0 a 1, donde 0 significa que no hay correlación y 1 significa que las variables tienen una correlación fuerte, ya sea positiva o negativa.

Cada característica tiene una correlación perfecta (1) consigo misma. Por lo tanto, puede observar que la fila superior de la matriz de correlación siempre es 1. Si desea excluir estos valores, puede usar el filtro para establecer el máximo en menos de 1.

Tenga en cuenta que si su matriz compara una combinación de columnas numéricas y categóricas y utiliza el tipo de correlación de Spearman y MI, las correlaciones categóricas x numéricas y categóricas x categóricas (que utilizan la medida MI) están en una escala de 0 a 1, mientras que las correlaciones numéricas x numéricas (que utilizan la medida de Spearman) están en una escala de -1 a 1. Revise sus correlaciones de interés detenidamente para asegurarse de que conoce el tipo de correlación que se utiliza para calcular cada valor.

4. Seleccione el método de visualización

En el panel lateral, puede usar Visualizar por para cambiar el método de visualización de la matriz. Elija el método de visualización numérica para mostrar el valor de correlación (Pearson, Spearman o MI) o elija el método de visualización de tamaño para visualizar la correlación con puntos de diferentes tamaños y colores. Si elige Tamaño, puede pasar el ratón sobre un punto específico de la matriz para ver el valor de correlación real.

5. Elija una paleta de colores

En el panel lateral, puede utilizar la Selección de colores para cambiar la paleta de colores utilizada para la escala de correlación negativa a positiva en la matriz. Seleccione una de las paletas de colores alternativas para cambiar los colores utilizados en la matriz.