使用分析探索您的資料 - Amazon SageMaker

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

使用分析探索您的資料

注意

您只能將 SageMaker Canvas 分析用於建立在表格資料集上的模型。也會排除多類別文字預測模型。

透過 Amazon SageMaker Canvas 中的分析,您可以在建立模型之前探索資料集並深入瞭解所有變數。您可以使用相互關聯矩陣來決定資料集中特徵之間的關係。您可以使用此技巧將資料集摘要成矩陣,以顯示兩個或多個值之間的相互關聯。這可幫助您識別並視覺化指定資料集中的模式,以進行進階資料分析。

矩陣會將每個特徵之間的相互關聯性 顯示為正、負或中性。建置模型時,您可能會想要包括彼此之間相互關聯性高的特徵。幾乎沒有相互關聯的特徵可能與您的模型不相關,您可以在建置模型時放棄這些特徵。

若要開始使用 SageMaker Canvas 中的關聯矩陣,請參閱下一節。

建立相互關聯性矩陣

當您準備在 SageMaker Canvas 應用程式的 [建置] 索引標籤中建立模型時,可以立關聯矩陣。

如需如何開始建立模型的指示,請參閱建立模型

在 SageMaker Canvas 應用程式中開始準備模型之後,請執行下列動作:

  1. 建置索引標籤中,選擇資料視覺化工具

  2. 然後選擇分析

  3. 選擇相互關聯性矩陣

您應該會看到類似下列螢幕擷取畫面的視覺效果,該螢幕擷取畫面顯示組織成相互關聯矩陣的資料集最多 15 個資料欄。

Canvas 應用程式中相互關連矩陣的螢幕擷取畫面。

建立相互關聯矩陣後,您可以藉由以下動作來自訂它:

1. 選擇您的資料欄

針對資料欄,您可以選取想要包含在矩陣中的欄。您最多可以比較資料集中的 15 個資料欄。

注意

您可以針對相互關聯矩陣使用數值、分類或二進位資料欄類型。相互關聯矩陣不支援日期時間或文字資料欄類型。

若要在相互關聯矩陣中新增或移除資料欄,請從資料欄面板中選取並取消選取欄。您也可以將資料欄直接從面板拖放到矩陣上。如果資料集有很多資料欄,您可以在搜尋欄位中搜尋想要的資料欄。

若要依資料類型篩選欄,請選擇下拉式清單,然後選取 [全部]、[數值] 或 [分類]。選取全部會顯示資料集中的所有資料欄,而數值分類篩選只會顯示資料集中的數值或分類資料欄。請注意,二進位資料欄類型包含在數值或分類篩選條件中。

若要獲得最佳資料洞見,請在相互關聯矩陣中包含您的目標欄。當您將目標欄包括在相互關聯矩陣中時,它會在出現在矩陣中最後一個特徵,並包含一個目標符號。

2. 選擇相互關聯類型

SageMaker Canvas 支援不同的關聯類型或計算欄之間相關性的方法。

若要變更相互關聯類型,請使用前一節中提到的資料欄篩選條件,篩選您想要的資料欄類型和資料欄。您應該會在側邊面板中看到相互關聯類型。針對數值比較,您可以選擇 PearsonSpearman。針對分類比較,相互關聯類型會設定為 MI。針對分類與混合比較,相互關聯類型會設定為 Spearman & MI

針對僅比較數值欄的矩陣,相互關聯類型是 Pearson 或 Spearman。Pearson 量值會評估兩個連續變數之間的線性關係。Spearman 量值會評估兩個變數之間的單調關係。對於 Pearson 與 Spearman,相互關聯性的規模範圍從 -1 到 1,規模的任一端表示一個完美的相關性 (直接 1:1 關係) 而 0 表示無相關性。如果您的資料具有更多線性關係 (如散佈圖視覺效果所顯示),您可能會想要選取 Pearson。如果您的資料並非線性的,或者混合了包含線性和單調關係,那麼您可能需要選擇 Spearman。

針對只比較分類資料欄的矩陣,相互關聯類型會設定為相互資訊分類 (MI)。MI 值是兩個隨機變數之間相互相依性的量值。MI 量值的範圍為 0 到 1,0 表示無相互關聯,1 表示完美相互關聯。

針對比較數值和分類資料欄的混合矩陣,相互關聯類型 Spearman & MI 是 Spearman 和 MI 相互關聯類型的組合。針對兩個數值欄之間的相互關聯,矩陣會顯示 Spearman 值。針對數值和分類欄或兩個分類欄之間的相互關聯,矩陣會顯示 MI 值。

最後請記住,相互關聯不一定表示因果關係。強相互關聯值僅表示兩個變數之間存在關係,但這些變數可能沒有因果關係。請仔細檢閱您感興趣的資料欄,以避免在建置模型時出現偏差。

3. 篩選您的相互關聯

在側邊面板中,您可以使用篩選相互關聯功能來篩選要包含在矩陣中的相關值範圍。例如,如果您要篩選僅具有正或中性相互關聯的特徵,您可以將下限設定為 0,將上限設定為 1 (有效值為 -1 到 1)。

針對 Spearman 和 Pearson 比較,您可以在 -1 到 1 範圍之間的任何地方設定篩選相互關聯,0 表示沒有相互關聯,-1 和 1 表示變數分別具有強的負或正相互關聯。

針對 MI 比較,相互關聯範圍僅從 0 到 1,0 表示沒有相互關聯,1 表示變數具有很強的相互關聯,無論是正或負。

每個特徵都與本身具有完美的相互關聯 (1)。因此您可能會注意到相互關聯矩陣的第一列永遠為 1。如果要排除這些值,可以使用篩選器將上限設定為小於 1。

請記住,如果您的矩陣比較了數字和分類欄的混合,並使用 Spearman & MI 相互關聯類型,則分類 x 數值分類 x 分類相互關聯 (使用 MI 量值) 的範圍為 0 到 1,而數值 x 數值關聯 (使用 Spearman 量值) 的範圍為 -1 到 1。仔細檢閱您感興趣的相互關聯,以確保您知道用於計算每個值的相互關聯類型。

4. 選擇視覺化方法。

在側邊面板中,您可以使用視覺化依據來變更矩陣的視覺化方法。選擇值視覺化方法以顯示相關性 (Pearson、Spearman 或 MI) 值,或選擇「大小」視覺化方法,以視覺化與不同大小和彩色點的關聯性。如果您選擇大小,您可以將游標暫留在矩陣的特定點上,以查看實際的相互關聯值。

5. 選擇調色盤

在側邊面板中,您可以使用顏色選取來變更用於矩陣中負至正相互關聯的調色盤。選取其中一個替代調色盤,以變更矩陣中使用的顏色。