偵測訓練前資料偏差 - Amazon SageMaker

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

偵測訓練前資料偏差

演算法偏差、識別性、公平性和相關主題已經跨領域 (例如法律,政策和電腦科學) 進行研究。一個電腦系統可能會被認為是偏差,如果它能識別某些個人或個人群體。支援這些應用程式的機器學習模型會從資料中學習,而這些資料可能反映散度或其他固有的偏差。例如,訓練資料可能無法對各種人口統計群組具有足夠的代表性,或者可能包含偏差的標籤。對表現出這些偏差的資料集進行訓練的機器學習模型最終可能會學習它們,然後再現或加劇預測中的偏差。機器學習領域提供了解決偏差的機會,方法是在機器學習 (ML) 生命週期的每個階段進行偵測並對其進行測量。您可以使用 Amazon SageMaker 澄清來判斷用於訓練模型的資料是否對任何偏差進行編碼

您可以在訓練前和訓練後衡量偏差,並在將模型部署到端點以進行推論,之後對照基準進行監控。訓練前偏差指標的設計目的是在使用原始資料訓練模型之前,先偵測和衡量其偏差。使用的指標與模型無關,因為它們不依賴任何模型輸出。但是,有不同的公平性概念需要採取不同的偏差量值。Amazon SageMaker 澄清提供偏見指標來量化各種公平性標準。

如需有關偏差指標的其他資訊,請參閱了解 Amazon Cri SageMaker ent 如何協助偵測金融 Machine Learning 的偏差和公平性措施

Amazon SageMaker 澄清偏見和公平的條款

SageMaker 澄清使用以下術語來討論偏見和公平性。

功能

一個被觀察現象的個體可衡量屬性或特徵,包含於用於表格式資料的列。

標籤

訓練機器學習模型的目標的功能。稱為觀察標籤或觀察結果

預測標籤

如模型所預測的標示。也稱為預測結果

樣本

由功能值和標籤值描述的觀察實體,包含於表格式資料的列中。

資料集

樣本的集合。

偏差

訓練資料中的不平衡或模型跨不同群組 (例如年齡或收入等級) 的預測行為。偏差可能是由用於訓練您模型的資料或演算法所產生的。例如,如果機器學習 (ML) 模型主要針對中年人的資料進行訓練,則在進行涉及年輕人和老年人的預測時,可能會較不準確。

偏差指標

傳回指示潛在偏差數值的函式。

偏差報告

指定資料集的偏差指標集合,或是資料集和模型的組合。

正標籤值

對樣本中觀察人口統計組有利的標籤值。換句話說,將樣本指定為具有正值的結果

負標籤值

對樣本中觀察人口組不利的標籤值。換句話說,將樣本指定為具有負結果

群變數

形成用於衡量條件人口統計差距 (CDD) 子組的資料集的分類欄。僅對於此指標關於辛普森的悖論是必需的。

構面

包含與衡量偏差相關之屬性的欄或功能。

構面值

偏差可能有利或不有利屬性的功能值。

預測機率

正如模型所預測的,具有正值或負面結果的樣本的機率。

範例筆記本

Amazon SageMaker 澄清提供下列用於偏壓偵測的範例筆記型電腦:

這款筆記型電腦已經過驗證,只能在 Amazon SageMaker 工作室中執行。如果您需要有關如何在 Amazon SageMaker Studio 中打開筆記本的說明,請參閱創建或打開 Amazon SageMaker 工作室經典筆記本。如果系統提示您選擇核心,請選擇 Python 3 (資料科學)