Proteções de privacidade do AWS Clean Rooms ML

O Clean Rooms ML foi projetado para reduzir o risco de ataques de inferência de associação, em que o provedor de dados de treinamento pode saber quem está nos dados iniciais e o provedor de dados de iniciais pode saber quem está nos dados de treinamento. Várias etapas são seguidas para evitar esse ataque.

Primeiro, os provedores de dados iniciais não observam diretamente a saída do Clean Rooms ML e os provedores de dados de treinamento nunca podem observar os dados iniciais. Os provedores de dados de seed podem optar por incluir os dados de seed no segmento de saída.

A seguir, o modelo de semelhanças é criado com base em uma amostra aleatória dos dados de treinamento. Essa amostra inclui um número significativo de usuários que não correspondem ao público inicial. Esse processo torna mais difícil determinar se um usuário não estava nos dados, o que é outra forma de inferência de associação.

Além disso, vários clientes de seed podem ser usados para cada parâmetro do treinamento de modelos de semelhanças específicos para seed. Isso limita o quanto o modelo pode ser sobreajustado e, portanto, o quanto pode ser inferido sobre um usuário. Como resultado, recomendamos que o tamanho mínimo dos dados de seed seja de 500 usuários.

Por fim, as métricas no nível de usuário nunca são fornecidas aos provedores de dados de treinamento, o que elimina outra via para um ataque de inferência de associação.

Atenção O Javascript está desativado ou não está disponível no seu navegador.

Para usar a documentação da AWS, o Javascript deve estar ativado. Consulte as páginas de Ajuda do navegador para obter instruções.

Convenções do documento

AWS modelos em Clean Rooms ML

Requisitos de dados de treinamento