在 Amazon SageMaker Studio Classic 筆記本中使用互動式資料準備小工具,以取得 Data Insights - Amazon SageMaker

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

在 Amazon SageMaker Studio Classic 筆記本中使用互動式資料準備小工具,以取得 Data Insights

使用 Data Wrangler 資料準備小工具與您的資料互動、取得視覺效果、探索可行的洞見,以及修正資料品質問題。

您可以從 Amazon SageMaker Studio Classic 筆記本存取資料準備小工具。小工具會為每一欄建立視覺效果,協助您進一步了解其分佈情況。如果欄有資料品質問題,該欄標題會顯示警告。

若要查看資料品質問題,請選取顯示警告的欄標題。您可以使用從洞見和視覺效果取得的資訊,套用小工具的內建轉換,協助您解決問題。

例如,小工具可能會偵測到欄只有一個唯一值,並顯示警告。警告提供從資料集捨棄欄的選項。

立即開始執行小工具

使用以下資訊,協助您開始執行筆記本。

在 Amazon SageMaker Studio Classic 中開啟筆記本。如需開啟筆記本的相關資訊,請參閱建立或開啟 Amazon SageMaker Studio Classic Notebook

重要

若要執行小工具,筆記本必須使用下列其中一個映像:

  • Python 3 (資料科學),配備 Python 3.7

  • Python 3 (資料科學 2.0),配備 Python 3.8

  • Python 3 (資料科學 3.0),配備 Python 3.10

  • SparkAnalytics 1.0

  • SparkAnalytics 2.0

如需基礎映像的更多相關資訊,請參閱Amazon SageMaker 映像可與 Studio Classic 搭配使用

使用以下程式碼匯入資料準備小工具和 Pandas。小工具使用 Pandas DataFrames 分析您的資料。

import pandas as pd import sagemaker_datawrangler

以下程式碼範例會將檔案載入名為 df 的資料框。

df = pd.read_csv("example-dataset.csv")

您可以使用任何格式的資料集,並且當成 Pandas DataFrames 物件載入。如需有關 pandas 格式的詳細資訊,請參閱 IO 工具 (文字、CSV、HDF5...)

下列儲存格會執行 df 變數,啟動小工具。

df

資料框的最上方有以下選項:

  • 檢視 Pandas 表格 — 在互動式視覺效果與 Pandas 表格之間切換。

  • 使用資料集中的所有列計算洞見。使用整個資料集可能會增加產生洞見所需的時間。— 如果您未選取此選項,Data Wrangler 會計算資料集前 10,000 列的洞見。

資料框會顯示資料集的前 1000 行。每個欄標題都有一個堆疊長條圖,顯示欄的特性。標頭會顯示有效值、無效值和缺少值的比例。您可以將游標暫留在堆疊長條圖的不同部分,取得計算出來的百分比。

每欄標題都有視覺化。以下顯示欄可以有的視覺化類型:

  • 分類 - 長條圖

  • 數值 - 長條圖

  • 日期時間 - 長條圖

  • 文字 - 長條圖

針對每個視覺化,資料準備小工具會以橘色強調顯示極端值。

當您選擇欄時,它會開啟一個側面板。側面板會顯示洞見索引標籤。窗格提供下列值類型的計數:

  • 無效值 — 類型與欄類型不符的值。

  • 缺少值 — 缺少的值,例如 NaNNone

  • 有效值 — 既非缺少也不是無效的值。

針對數值欄,洞見索引標籤會顯示下列總結統計資料:

  • 下限 — 最小值。

  • 上限 — 最大值。

  • 平均值 – 值的平均值。

  • 模式 — 最常顯示的值。

  • 標準偏差 — 值的標準差。

針對分類欄,洞見索引標籤會顯示下列總結統計資料:

  • 唯一值 — 欄中唯一值的數量。

  • 模式 — 最常顯示的值。

標題中有警告圖示的欄存在資料品質問題。選擇欄會開啟資料品質索引標籤,您可以使用該標籤尋找轉換資料,協助您修正問題。警告有下列其中一個嚴重性等級:

  • 低 — 可能不會影響您的分析,但可能有助於修復的問題。

  • 中 — 可能會影響您的分析,但可能並不重要的問題。

  • 高 — 我們強烈建議修復的嚴重問題。

注意

小工具會對欄進行排序,在資料框最上方顯示存在資料品質問題的值。它也會強調顯示造成問題的值。強調顯示的顏色對應嚴重性等級。

SUGGESTED TRANSFORMS下,您可以選擇轉換來修正資料品質問題。該小工具可以提供多個修復此問題的轉換。它可以為最適合該問題的轉換提供建議。您可以將游標移到轉換上,取得該轉換的更多相關資訊。

若要將轉換套用至資料集,請選擇套用並匯出程式碼。轉換會修改資料集,並以修改後的值更新視覺化。轉換的程式碼會出現在筆記本的下列儲存格中。如果您將其他轉換套用至資料集,小工具會將轉換附加至儲存格。您可以透過小工具產生的程式碼執行下列工作:

  • 自訂後讓它更符合您的需求。

  • 在自己的工作流程使用它。

您可以重新執行筆記本中的所有儲存格,重現已完成所有的轉換。

小工具可以提供目標欄的洞見和警告。目標欄是您嘗試預測的欄。使用以下程序取得目標欄洞見。

若要取得目標欄洞見,請執行下列動作。

  1. 選擇您要當成目標欄的欄。

  2. 選擇選擇作為目標欄

  3. 選擇問題類型。小工具的洞見和警告是針對問題類型量身打造。以下是動作類型:

    • 分類 — 目標欄具有分類資料。

    • 回歸 — 目標欄具有數值資料。

  4. 選擇執行

  5. (選用) 在目標欄洞見下,選擇其中一個建議的轉換。

小工具中洞見和轉換的參考

針對功能欄 (不是目標欄的欄),您可以取得下列洞見,就資料集的問題警告您。

  • 缺少值 — 欄缺少值,例如 NoneNaN (不是數字) 或 NaT (非時間戳記)。許多機器學習演算法不支援輸入資料中的缺少值。因此,在缺少資料的列輸入或捨棄它們,是關鍵的資料準備步驟。如果您看到缺少值警告,您可以使用下列其中一個轉換更正此問題。

    • 刪除缺少 — 捨棄有缺少值的列。我們建議您,如果遺失資料的列百分比較小,而且不適合歸於缺少值,請捨棄列。

    • 以新值取代 — 以 Other 取代文字缺少值。您可以在輸出程式碼中,將 Other 變更為不同的值。用 0 取代數值缺少值。

    • 以平均值取代 — 以欄的平均值取代缺少值。

    • 以中位數取代 — 以欄的中位數取代缺少值。

    • 捨棄欄 — 從資料集捨棄有缺少值的欄。我們建議,如果有很高百分比的列遺失資料,請捨棄整欄。

  • 偽裝的缺少值 — 此欄具有偽裝缺少值。偽裝的缺少值是未明確編碼為缺少值的值。例如,不要使用 NaN 代表缺少值,值可以使用 Placeholder。您可以使用下列其中一個轉換處理缺少值:

    • 刪除缺少 — 捨棄有缺少值的列

    • 以新值取代 — 以 Other 取代文字缺少值。您可以在輸出程式碼中,將 Other 變更為不同的值。用 0 取代數值缺少值。

  • 常數欄 — 欄只有一個值。因此,它沒有預測能力。強烈建議您使用捨棄欄轉換,將欄從資料集捨棄。

  • ID 欄 — 欄沒有重複值。欄中所有的值都是唯一。它們可能是 IDs或 資料庫金鑰。如果沒有其他資訊,該欄就沒有預測能力。強烈建議您使用捨棄欄轉換,將欄從資料集捨棄。

  • 高基數 — 欄具有很高百分比的唯一值。高基數限制了分類欄的預測能力。在分析中檢查欄的重要性,並考慮使用捨棄欄轉換將欄捨棄。

針對目標欄,您可以取得下列洞見,就資料集的問題警告您。您可以透過隨附警告的建議轉換更正問題。

  • 目標中的混合資料類型 (迴歸) — 目標欄中有一些非數值。可能存在資料輸入錯誤。建議您移除具有無法轉換之值的列。

  • 經常標籤 — 目標欄中某些值出現的頻率高於迴歸內容中的正常值。資料收集或處理可能有錯誤。經常出現的類別可能表示,該值被當成預設值,或者它是缺少值的預留位置。我們建議使用以新值取代轉換,用 Other 取代缺少值。

  • 每個類別的執行個體太少 — 目標欄的類別很少出現。某些類別沒有足夠的列,目標欄無法發揮作用。您可以使用下列其中一個轉換:

    • 捨棄稀有目標 — 將觀察少於十的唯一值捨棄。例如,如果值在欄出現九次,則捨棄 cat 這個值。

    • 取代稀有目標 — 以 Other 這個值取代資料集中很少出現的類別。

  • 類別過於不平衡 (多類別分類) — 資料集中有些類別比其他類別出現的頻率高很多。類別不平衡可能影響預測準確性。為了獲得最準確的預測,我們建議使用目前有出現頻率較低之類別的列更新資料集。

  • 大量的類別/過多的類別 - 目標欄中有大量類別。類別多可能導致訓練時間延長,或是預測品質較差。我們建議您執行下列其中一項操作:

    • 將某些類別分組為專屬的類別。例如,如果六個類別密切相關,我們建議您用單一類別代表這些類別。

    • 使用可彈性適應多個類別的機器學習 (ML) 演算法。