取得有關資料和資料品質的洞察 - Amazon SageMaker

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

取得有關資料和資料品質的洞察

使用資料品質和洞察報告,對已匯入至 Data Wrangler 的資料執行分析。建議您在匯入資料集之後建立報告。您可以使用該報告來幫助您清理和處理資料。它為您提供相關資訊,像是缺少值的數量和極端值數量等。如果您的資料有問題,例如目標洩漏或不平衡,洞察報告可以提醒您注意這些問題。

使用下列程序建立資料品質與洞察報告。它假設您已將資料集匯入 Data Wrangler 流程。

若要建立資料品質與洞察報告
  1. 選擇 Data Wrangler 流程節點旁邊的 +

  2. 選取取得資料洞見

  3. 分析名稱的部分,指定洞察報告的名稱。

  4. (選用) 針對目標欄的部分,指定目標欄。

  5. 問題類型指定迴歸分類

  6. 針對資料大小,請指定下列其中一項:

    • 50 K — 使用您已匯入資料集的前 50000 列來建立報告。

    • 整個資料集 — 使用您匯入的整個資料集來建立報告。

    注意

    使用 Amazon SageMaker 處理任務建立整個資料集的資料品質和洞察報告。 SageMaker 處理任務會佈建所需的其他運算資源,以取得所有資料的見解。如需 SageMaker 處理工作的詳細資訊,請參閱使用處理工作執行資料轉換工作負載

  7. 選擇建立

下列主題顯示報告的各區段:

您可以下載報告或線上查看報告。若要下載報告,請選取畫面右上角的下載按鈕。下列影像顯示按鈕。

Summary

洞察報告提供資料的簡短摘要,其中包含一般資訊,例如缺少值、無效值、功能類型、極端值計數等。它還可以包含高嚴重性警告,指出資料可能出現的問題。出現警告時,建議您進行調查。

以下是報告摘要的範例。

目標欄

當您建立資料品質和洞察報告時,Data Wrangler 會提供選取目標欄的選項。目標欄是您試圖預測的資料欄。當您選擇目標欄時,Data Wrangler 會自動建立目標欄分析。它還按照其預測能力的順序,對功能進行排名。當您選取目標欄時,您必須指定要試圖解決迴歸還是分類問題。

分類問題的話,Data Wrangler 顯示一個資料表和直方圖,其中包含最常見的分類。一個類別就是一個分類。它還會呈現觀測值或資料行,顯示缺少或無效的目標值。

下列影像顯示分類問題的範例目標欄分析。

迴歸問題的話,Data Wrangler 會顯示目標欄中所有值的長條圖。它還會呈現觀測值或資料行,顯示缺少、無效或極端的目標值。

下列影像顯示迴歸問題的範例目標欄分析。

快速模型

快速模型提供以您的資料訓練的模型,其預期的預測品質估計。

Data Wrangler 會將您的資料分割成訓練和驗證折疊。它使用 80% 的樣本進行訓練,20% 的值進行驗證。分類的話,取樣是採分層分割。分層分割情況下,每個資料分割區具有相同的標籤比例。分類問題的話,重要的是要在訓練和分類折疊之間保持相同的標籤比例。Data Wrangler 使用預設的超參數來訓練 XGBoost 模型。它適用於驗證資料提前停止的情形,並執行最小的功能預先處理。

分類模型的話,Data Wrangler 會傳回模型摘要和混淆矩陣。

以下是分類模型摘要的範例。若要進一步了解其傳回的資訊,請參閱定義

以下是快速模型傳回之混淆矩陣的範例。

混淆矩陣為您提供以下資訊:

  • 預測標籤與實際標籤相符的次數。

  • 預測標籤與實際標籤不相符的次數。

實際標籤代表在資料中實際觀察到的情形。例如,如果您使用模型來偵測詐騙交易,則實際標籤代表該交易實際上是否為詐騙。預測標籤表示模型指派給資料的標籤。

您可以透過混淆矩陣,查看模型預測條件存在或不存在的情況。如果您要預測詐騙交易,則可以使用混淆矩陣來了解模型的敏感度和明確性。敏感度是指模型偵測詐騙交易的能力。明確性是指模型避免將非詐騙交易檢測為詐騙交易的能力。

以下是迴歸問題的快速模型輸出的範例。

功能摘要

當您指定目標欄時,Data Wrangler 會依其預測力對功能排序。預測力是在資料分成 80% 訓練和 20% 驗證折疊之後測量的。針對訓練折疊上的每項個別特徵,Data Wrangler 都會對應一個模型。它會套用最少的特徵預處理,並測量驗證資料的預測效能。

它將分數標準化為 [0,1] 範圍。較高的預測分數,表示這些資料欄單獨使用時,對於預測目標更為有用。得分較低,表示這些欄對於預測目標欄來說不具預測能力。

當一欄單獨來看不具預測性時,它與其他欄搭配使用時通常也不會變得有預測性。您可以放心地使用預測分數,來判斷資料集內的特徵是否可預測。

分數較低通常表示該特徵是多餘的。分數為 1 意味著完美的預測能力,這通常表示目標洩漏。目標洩漏通常發生在資料集包含一個欄,其在預測時間內為不可用。例如,它可能是目標欄的副本。

以下是顯示每個特徵預測值的表格和長條圖的範例。

範例

Data Wrangler 會提供有關您的樣本是否異常,或資料集內是否有所重複的資訊。

Data Wrangler 使用隔離樹演算法偵測異常樣本。隔離樹會將異常狀況分數與資料集的每個樣本 (列) 產生關聯。低異常狀況分數表示出現異常樣本。高分與非異常樣本有關。具有負異常狀況分數的樣本通常被視為異常,具有正異常狀況分數的樣本被視為非異常。

當您查看可能異常的樣本時,我們建議您注意不尋常的值。例如,您的極端值可能是由於收集和處理資料時發生錯誤而產生的。以下是根據 Data Wrangler 對隔離樹演算法實作的最異常樣本範例。我們建議您在檢查異常樣本時,運用領域知識和商業邏輯。

Data Wrangler 會偵測重複的資料列,並計算資料中重複資料列的比例。某些資料來源可能包含有效的重複項。其他資料來源可能具有指向資料收集問題的重複項目。由於錯誤的資料收集而產生的重複範例,可能會干擾將資料分割為獨立訓練和驗證折疊的機器學習程序。

以下是可能受到重複樣本影響的洞察報告元素:

  • 快速模型

  • 預測力估算

  • 自動超參數調校

您可以使用管理列底下的捨棄重複轉換工具,從資料集中移除重複樣本。Data Wrangler 會顯示最常重複的資料列。

定義

下列是資料洞見報告中使用的技術詞彙定義。

Feature types

以下是每個特徵類型的定義:

  • 數值 — 數值可以是浮點數或整數,例如年齡或收入。機器學習模型假設數值已排序,並定義相關距離。例如,3 比 10 更接近 4,而 3 < 4 < 10。

  • 分類 — 欄項目屬於一組唯一值,通常比欄中的項目數小得多。例如,長度為 100 的欄可以包含唯一值DogCatMouse。這些值可以是數值、文字或兩者的組合。 HorseHouse8Love3.1是有效值,並且可以在相同的分類欄中找到。有別於數字特徵,機器學習模型不會假設分類特徵值的順序或距離,即使所有值都是數字。

  • 二進位 — 二進位功能是一種特殊的分類功能類型,其中一組唯一值的基數為 2。

  • 文字 — 文字欄包含許多非數字的唯一值。在極端情況下,資訊欄的所有元素都是唯一的。在極端情況下,沒有任何項目是相同的。

  • 日期時間 — 日期時間欄包含日期或時間的相關資訊。它可以同時具有日期和時間的資訊。

Feature statistics

以下是每個特徵統計資料的定義:

  • 預測力-預測力是衡量資訊欄在預測目標方面的有用程度。

  • 極端值 (在數值欄中) — Data Wrangler 使用兩種對極端值的統計資料來偵測極端值:中間值和強大的標準偏差 (RSTD)。RSTD 是透過將特徵值裁剪為 [5 百分位數, 95 百分位數] 範圍,並計算裁剪向量的標準偏差而得出。所有大於中間值 + 5 * RSTD 或小於 中間值 - 5 * RSTD 的值都被視為極端值。

  • 偏態 (在數值欄中) — 偏態用來衡量分佈的對稱性,並定義為分佈的三階矩除以標準偏差的三次方。常態分佈或任何其他對稱分佈的偏態為零。正值表示分佈的右尾長於左尾。負值表示分佈的左尾長於右尾。根據經驗法則,當偏態的絕對值大於 3 時,分佈會被視為偏斜。

  • 峰態 (以數值欄表示) — 皮爾森峰度測量分佈尾端的厚度。它被定義成第四矩除以第二矩的平方。常態分佈的峰態為 3。峰態值小於 3,代表分佈集中在平均值周圍,尾部比常態分佈的尾部輕。峰態值大於 3 代表尾部較重或極端值。

  • 缺少值-類似空值的物件,空字串和僅由空格組成的字串,其被視為缺少值。

  • 數值功能或迴歸目標的有效值 — 可投射為有限浮點數的所有值都有效。缺少值無效。

  • 分類、二進位或文字功能或分類目標的有效值 — 所有未缺少的值都有效。

  • 日期時間功能 — 可轉換為日期時間物件的所有值都有效。缺少值無效。

  • 無效值 — 缺少或無法正確轉換的值。例如,在數值欄中,您無法轉換字串"six"或 Null 值。

Quick model metrics for regression

以下是快速模型指標的定義:

  • R2 或決定係數) — R2 是模型預測的目標中變化的比例。R2 在 [負無限,1] 的範圍內。1 是完美預測目標的模型的分數,0 表示簡單模型總是預測目標的平均值。

  • MSE 或均方誤差 — MSE 在 [0,無限] 範圍內。0 是完美預測目標的模型的分數。

  • MAE 或平均絕對誤差 — MAE 在 [0,無限] 範圍內,0 是完美預測目標模型的分數。

  • MSE 或均方根誤差 — RMSE 在 [0,無限] 範圍內。0 是完美預測目標的模型的分數。

  • 最大誤差 — 錯誤在資料集上的最大絕對值。最大誤差在 [0,無限] 範圍內。0 是完美預測目標的模型的分數。

  • 中間值絕對誤差 — 中間值絕對誤差在 [0,無限] 範圍內,0 是完美預測目標模型的分數。

Quick model metrics for classification

以下是快速模型指標的定義:

  • 準確度 — 準確度是準確預測樣本的比率。準確度在 [0, 1] 範圍內。0 是所有樣本預測失敗的模型分數,1 是完美模型的分數。

  • 平衡準確度 — 平衡準確度是在調整類別權重以平衡資料時,預測正確的樣本比例。不論分類出現的頻率如何,所有類別都被視為同等重要。平衡準確度在 [0, 1] 範圍內。0 是所有樣本預測錯誤的模型分數,1 是完美模型的分數。

  • AUC (二進制分類) — 這是接收者操作特性曲線下的面積。AUC 在 [0, 1] 範圍內,其中隨機模型傳回 0.5 的分數,完美模型會傳回 1 的分數。

  • AUC (OVR) — 對於多類別分類,這是使用一對多方法分別計算每個標籤的接收者操作特性曲線下的面積。Data Wrangler 報告面積的平均值。AUC 在 [0, 1] 範圍內,其中隨機模型傳回 0.5 的分數,完美模型會傳回 1 的分數。

  • 精確度-精確度是針對特定類別定義的。精確度是是模型將一個類別正確分類的執行個體數,除以所有被模型分類為該類別的執行個體數之所得。精確度在 [0, 1] 範圍內,1 是沒有類別誤報的模型分數。如為二進制分類,Data Wrangler 報告正類別的精確度。

  • 召回率 - 召回率是針對特定類別定義的。召回率表示成功檢索到的相關類別執行個體數,占所有相關類別執行個體數的比例。召回率範圍在 [0, 1] 之間,1 是該類別所有執行個體經正確分類模型的分數。如為二進制分類,Data Wrangler 報告正類別的召回率。

  • F1 — F1 是針對特定類別定義的。這是精確度和召回率之間的調和平均數。F1 在 [0, 1] 範圍內,1 是完美模型的分數。如為二進制分類,Data Wrangler 會針對具有正值的類別報告 F1。

Textual patterns

模式使用易於閱讀的格式來描述字串的文字格式。下列是文字模式的範例:

  • {digits:4-7}” 描述長度介於 4 和 7 之間的數字序列。

  • {alnum:5}” 描述長度恰好為 5 的英數混合字串。

Data Wrangler 會從資料中查看非空字串的樣本來推斷模式。它可以描述許多常用的模式。以百分比表示的信賴度,表示估計值與模式相符的資料量。使用文字模式,您可以查看資料中需要更正或捨棄的行。

以下說明 Data Wrangler 可以辨識的模式:

模式 文字格式

{alnum}

英數字串

{any}

任何字詞字元字串

{digits}

數字序列

{lower}

一個小寫單字

{mixed}

一個混合大小寫的單字

{name}

開頭為大寫字母的單字

{upper}

一個大寫單字

{空格}

空格字元

單字字元可以是底線,或可能出現在任何語言單字中的字元。例如,字串 'Hello_word' 和 'écoute' 都由單字字元組成。'H' 和 'é' 都是單字字元的範例。