本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。
AWS Clean Rooms 機器學習 (ML)
AWS Clean Rooms ML 為雙方提供了一種隱私保護方法,以識別其數據中的相似用戶,而無需彼此共享數據。第一方將培訓數據帶到 AWS Clean Rooms 以便他們可以創建和配置相似的模型,並將其與協作關聯。然後,將種子資料帶到共同作業中,以建立類似訓練資料的相似區段。
如需其運作方式的更詳細說明,請參閱跨帳戶任務。
-
訓練資料提供者 — 提供訓練資料、建立和設定相似模型,然後將相似模型與共同作業建立關聯的一方。
-
種子資料提供者 — 提供種子資料、產生相似區段,以及匯出其相似區段的一方。
-
訓練資料 — 訓練資料提供者的資料,用於產生相似模型。訓練資料用於測量使用者行為的相似性。
訓練資料必須包含使用者 ID、項目 ID 和時間戳記欄。或者,訓練資料可以包含其他作為數值或分類特徵的互動。互動範例包括觀看的影片、已購買的項目或已閱讀的文章。
-
種子資料 — 種子資料提供者的資料,用於建立相似區段。種子數據可以直接提供,也可以來自的結果 AWS Clean Rooms 查詢。相似區段輸出是訓練資料中最類似種子使用者的一組使用者。
-
相似模型 — 訓練資料的機器學習模型,用來尋找其他資料集中的類似使用者。
使用時API,「對象模型」一詞會等同用於相似模型。例如,您可以使CreateAudienceModelAPI用建立相似模型。
-
相似區段 — 訓練資料的子集,與種子資料最相似。
使用時API,您可以使用建立相似區段。StartAudienceGenerationJobAPI
訓練資料提供者的資料絕不會與種子資料提供者共用,而且絕不會與訓練資料提供者共用種子資料提供者的資料。相似區段輸出會與訓練資料提供者共用,但絕不會與種子資料提供者共用。
如需相似模型的詳細資訊,請參閱下列主題。
主題
方法 AWS Clean Rooms ML 的作品
Clean Rooms ML 要求雙方(培訓數據提供商和種子數據提供商)按順序工作 AWS Clean Rooms 將他們的數據帶入協作中。這是訓練資料提供者必須先完成的工作流程:
-
訓練資料提供者的資料必須儲存在 AWS Glue 使用者項目互動的資料目錄表格。訓練資料至少必須包含使用者 ID 欄、互動 ID 欄和時間戳記資料行。
-
訓練資料提供者註冊訓練資料 AWS Clean Rooms.
-
訓練資料提供者會建立可與多個種子資料提供者共用的相似模型。相似模型是一種深度神經網絡,最多可能需要 24 小時才能進行訓練。它不會自動重新訓練,我們建議您每週重新訓練模型。
-
訓練資料提供者可設定相似模型,包括是否共用相關性指標以及輸出區段的 Amazon S3 位置。訓練資料提供者可以從單一相似模型建立多個已設定的相似模型。
-
訓練資料提供者會將已設定的受眾模型與與種子資料提供者共用的共同作業相關聯。
這是種子資料提供者接下來必須完成的工作流程:
-
種子數據提供商的數據可以存儲在 Amazon S3 存儲桶中,可以來自查詢結果。
-
種子資料提供者會開啟他們與訓練資料提供者共用的共同作業。
-
種子資料提供者會從協同作業頁面的「清潔室 ML」索引標籤建立相似區段。
-
種子資料提供者可以評估相關性指標 (如果共用),並匯出相似區段以供外部使用 AWS Clean Rooms.