預先訓練資料偏差

演算法偏差、識別性、公平性和相關主題已經跨領域 (例如法律，政策和電腦科學) 進行研究。一個電腦系統可能會被認為是偏差，如果它能識別某些個人或個人群體。支援這些應用程式的機器學習模型會從資料中學習，而這些資料可能反映散度或其他固有的偏差。例如，訓練資料可能無法對各種人口統計群組具有足夠的代表性，或者可能包含偏差的標籤。對表現出這些偏差的資料集進行訓練的機器學習模型最終可能會學習它們，然後再現或加劇預測中的偏差。機器學習領域提供了解決偏差的機會，方法是在機器學習 (ML) 生命週期的每個階段進行偵測並對其進行測量。您可以使用 Amazon SageMaker Clarify 來判斷用於訓練模型的資料是否對任何偏差進行編碼

您可以在訓練前和訓練後衡量偏差，並在將模型部署到端點以進行推論，之後對照基準進行監控。訓練前偏差指標的設計目的是在使用原始資料訓練模型之前，先偵測和衡量其偏差。使用的指標與模型無關，因為它們不依賴任何模型輸出。但是，有不同的公平性概念需要採取不同的偏差量值。Amazon SageMaker Clarify 提供偏差指標，以量化各種公平性標準。

有關偏差指標的其他資訊，請參閱了解 Amazon SageMaker Clarify 如何協助偵測偏差和機器學習在金融領域的公平性量值。

Amazon SageMaker Clarify 偏差和公平性條款

SageMaker Clarify 使用下列術語來討論偏差和公平性。

功能: 一個被觀察現象的個體可衡量屬性或特徵，包含於用於表格式資料的列。
標籤: 訓練機器學習模型的目標的功能。稱為觀察標籤或觀察結果。
預測標籤: 如模型所預測的標示。也稱為預測結果。
樣本: 由功能值和標籤值描述的觀察實體，包含於表格式資料的列中。
資料集: 樣本的集合。
偏差: 訓練資料中的不平衡或模型跨不同群組 (例如年齡或收入等級) 的預測行為。偏差可能是由用於訓練您模型的資料或演算法所產生的。例如，如果機器學習 (ML) 模型主要針對中年人的資料進行訓練，則在進行涉及年輕人和老年人的預測時，可能會較不準確。
偏差指標: 傳回指示潛在偏差數值的函式。
偏差報告: 指定資料集的偏差指標集合，或是資料集和模型的組合。
正標籤值: 對樣本中觀察人口統計組有利的標籤值。換句話說，將樣本指定為具有正值的結果。
負標籤值: 對樣本中觀察人口組不利的標籤值。換句話說，將樣本指定為具有負結果。
群變數: 形成用於衡量條件人口統計差距 (CDD) 子組的資料集的分類欄。僅對於此指標關於辛普森的悖論是必需的。
構面: 包含與衡量偏差相關之屬性的欄或功能。
構面值: 偏差可能有利或不有利屬性的功能值。
預測機率: 正如模型所預測的，具有正值或負面結果的樣本的機率。

範例筆記本

Amazon SageMaker Clarify 提供下列用於偏差偵測的範例筆記本：

使用 Amazon SageMaker Clarify 的可解譯性和偏差偵測 – 使用 SageMaker Clarify 建立處理任務，以偵測偏差並使用功能屬性說明模型預測。

此筆記本已透過驗證，只能在 Amazon SageMaker Studio 中執行。如果您需要有關如何在 Amazon SageMaker Studio 中打開筆記本的說明，請參閱建立或開啟 Amazon SageMaker Studio Classic 筆記本。如果系統提示您選擇核心，請選擇 Python 3 (資料科學)。

主題

您的瀏覽器已停用或無法使用 Javascript。

您必須啟用 Javascript，才能使用 AWS 文件。請參閱您的瀏覽器說明頁以取得說明。

文件慣用形式

對任務執行故障診斷

訓練前偏差指標