本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。
在 SageMaker Studio 中產生偏見預訓練資料的報告
SageMaker Clarify 與 Amazon SageMaker Data Wrangler 整合,可協助您在資料準備期間識別偏差,而無需編寫自己的程式碼。Data Wrangler 提供 end-to-end使用 Amazon SageMaker Studio 匯入、準備、轉換、使資料成為特徵和分析資料的解決方案。有關 Data Wrangler 資料準備工作流程的概觀,請參閱使用 Amazon Data Wrangler 準備 ML SageMaker 資料。
您可以指定感興趣的屬性,例如性別或年齡, SageMaker Clarify 會執行一組演算法來偵測這些屬性中是否存在偏差。演算法執行後, SageMaker Clarify 會提供視覺化報告,其中說明可能的偏差來源和嚴重性,以便您可以規劃要緩解的步驟。例如,在包含幾個商業貸款範例的財務資料集中,與其他人相比,一個年齡群組會 SageMaker 標記不平衡,以便您可以避免不利於該年齡群組的模型。
分析和報告資料偏差
要開始使用 Data Wrangler,請參閱開始使用 Data Wrangler。
-
在 Amazon SageMaker Studio Classic 中,從左側面板的首頁 ( ) 選單中,導覽至資料節點,然後選擇 Data Wrangler 。這會開啟 Studio Classic 中的 Data Wrangler 登陸頁面。
-
選擇 + 匯入資料按鈕以建立新流程。
-
在流程頁面的匯入索引標籤,選擇 Amazon S3,導覽至 Amazon S3 儲存貯體,找到您的資料集,然後選擇匯入。
-
匯入您的資料後,在資料流量索引標籤的流程圖上,選擇資料類型節點右側的 + 號。
-
選擇 新增分析。
-
在建立分析頁面上,選擇偏差報告作為分析類型。
-
透過提供報告名稱、要預測的欄,以及其是值還是閾值、要分析偏差 (構面) 的欄,以及其是值還是閾值,設定偏差報告。
-
選擇偏差指標,繼續設定偏差報告。
-
選擇檢查偏差,以產生並檢視偏差報告。向下捲動以檢視全部的報告。
-
選擇每個偏差指標說明右側的插入記號,參閱可協助您解讀指標值重要性的文件。
-
若要檢視偏差指標值的表格摘要,請選擇資料表切換按鈕。若要儲存報告,請選擇頁面右下角的儲存。您可以在資料流量索引標籤的流程圖上查看報告。按兩下報告以開啟之。