개인 정보 보호: AWS Clean Rooms ML

Clean Rooms ML은 교육 데이터 제공자가 시드 데이터에 누가 있는지 알 수 있고 시드 데이터 제공자는 교육 데이터에 누가 있는지 알 수 있는 멤버십 추론 공격의 위험을 줄이도록 설계되었습니다. 이 공격을 방지하기 위해 취할 수 있는 몇 가지 단계가 있습니다.

첫째, 시드 데이터 제공자는 Clean Rooms ML 결과를 직접 관찰하지 않으며 교육 데이터 제공자는 시드 데이터를 절대 관찰할 수 없습니다. 시드 데이터 공급자는 출력 세그먼트에 시드 데이터를 포함하도록 선택할 수 있습니다.

다음으로, 훈련 데이터의 랜덤 샘플에서 유사 모델을 만듭니다. 이 샘플에는 시드 오디언스와 일치하지 않는 상당수의 사용자가 포함되어 있습니다. 이 프로세스를 통해 사용자가 데이터에 포함되어 있지 않은지 여부를 판단하기가 더 어려우며, 이는 멤버십을 추론하는 또 다른 방법입니다.

또한 시드별 유사 모델 훈련의 모든 파라미터에 여러 시드 고객을 사용할 수 있습니다. 이로 인해 모델이 오버피팅할 수 있는 양과 사용자에 대해 추론할 수 있는 양이 제한됩니다. 따라서 시드 데이터의 최소 크기는 사용자 500명으로 설정하는 것이 좋습니다.

마지막으로, 사용자 수준 지표는 훈련 데이터 공급자에게 절대 제공되지 않으므로 멤버십 추론 공격의 또 다른 수단이 없어집니다.

javascript가 브라우저에서 비활성화되거나 사용이 불가합니다.

AWS 설명서를 사용하려면 Javascript가 활성화되어야 합니다. 지침을 보려면 브라우저의 도움말 페이지를 참조하십시오.

문서 규칙

AWS Clean Rooms ML

교육 데이터 요구 사항