在 SageMaker Studio 中產生偏見預訓練資料的報告 - Amazon SageMaker

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

在 SageMaker Studio 中產生偏見預訓練資料的報告

SageMaker Clarify 與 Amazon SageMaker Data Wrangler 整合,可協助您在資料準備期間識別偏差,而無需編寫自己的程式碼。Data Wrangler 提供 end-to-end使用 Amazon SageMaker Studio 匯入、準備、轉換、使資料成為特徵和分析資料的解決方案。有關 Data Wrangler 資料準備工作流程的概觀,請參閱使用 Amazon Data Wrangler 準備 ML SageMaker 資料

您可以指定感興趣的屬性,例如性別或年齡, SageMaker Clarify 會執行一組演算法來偵測這些屬性中是否存在偏差。演算法執行後, SageMaker Clarify 會提供視覺化報告,其中說明可能的偏差來源和嚴重性,以便您可以規劃要緩解的步驟。例如,在包含幾個商業貸款範例的財務資料集中,與其他人相比,一個年齡群組會 SageMaker 標記不平衡,以便您可以避免不利於該年齡群組的模型。

分析和報告資料偏差

要開始使用 Data Wrangler,請參閱開始使用 Data Wrangler

  1. 在 Amazon SageMaker Studio Classic 中,從左側面板的首頁 Black square icon representing a placeholder or empty image. ) 選單中,導覽至資料節點,然後選擇 Data Wrangler 。這會開啟 Studio Classic 中的 Data Wrangler 登陸頁面

  2. 選擇 + 匯入資料按鈕以建立新流程。

  3. 在流程頁面的匯入索引標籤,選擇 Amazon S3,導覽至 Amazon S3 儲存貯體,找到您的資料集,然後選擇匯入

  4. 匯入您的資料後,在資料流量索引標籤的流程圖上,選擇資料類型節點右側的 + 號。

  5. 選擇 新增分析

  6. 建立分析頁面上,選擇偏差報告作為分析類型

  7. 透過提供報告名稱、要預測的欄,以及其是值還是閾值、要分析偏差 (構面) 的欄,以及其是值還是閾值,設定偏差報告。

  8. 選擇偏差指標,繼續設定偏差報告。

    選擇偏差指標。
  9. 選擇檢查偏差,以產生並檢視偏差報告。向下捲動以檢視全部的報告。

    產生並檢視偏差報告。
  10. 選擇每個偏差指標說明右側的插入記號,參閱可協助您解讀指標值重要性的文件。

  11. 若要檢視偏差指標值的表格摘要,請選擇資料表切換按鈕。若要儲存報告,請選擇頁面右下角的儲存。您可以在資料流量索引標籤的流程圖上查看報告。按兩下報告以開啟之。