As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.
AWS Clean Rooms O ML fornece um método de preservação da privacidade para duas partes identificarem usuários semelhantes em seus dados sem a necessidade de compartilhar seus dados entre si. A primeira parte traz os dados de treinamento para AWS Clean Rooms que eles possam criar e configurar um modelo semelhante e associá-lo a uma colaboração. Depois, os dados iniciais são introduzidos na colaboração para criar um segmento de semelhanças que se pareça com os dados de treinamento.
Consulte uma explicação mais detalhada de como isso funciona em Trabalhos entre contas.
Os tópicos a seguir fornecem informações sobre como criar e configurar AWS modelos no Clean Rooms ML.
Tópicos
AWS Clean Rooms Terminologia de ML
É importante entender a seguinte terminologia ao usar o Clean Rooms ML:
-
Provedor de dados de treinamento: a parte que contribui com os dados de treinamento, cria e configura um modelo de semelhanças e o associa a uma colaboração.
-
Provedor de dados de seed: a parte que contribui com os dados de seed, gera um segmento de semelhanças e o exporta.
-
Dados de treinamento: os dados do provedor de dados de treinamento, que são usados para gerar um modelo de semelhanças. Os dados de treinamento são usados para medir a semelhança nos comportamentos do usuário.
Os dados de treinamento devem conter uma coluna de ID de usuário, ID do item e carimbo de data/hora. Opcionalmente, os dados de treinamento podem conter outras interações como atributos numéricos ou categóricos. Exemplos de interações são uma lista de vídeos assistidos, itens comprados ou artigos lidos.
-
Dados de seed: os dados do provedor de dados de seed, que são usados para criar um segmento de semelhanças. Os dados iniciais podem ser fornecidos diretamente ou podem vir dos resultados de uma AWS Clean Rooms consulta. A saída do segmento de semelhanças é um conjunto de usuários dos dados de treinamento que mais se assemelha aos usuários de seed.
-
Modelo de semelhanças: um modelo de machine learning dos dados de treinamento usado para encontrar usuários semelhantes em outros conjuntos de dados.
Ao usar a API, o termo modelo de público é usado de forma equivalente ao modelo de semelhanças. Por exemplo, você usa a CreateAudienceModelAPI para criar um modelo semelhante.
-
Segmento de semelhanças: um subconjunto dos dados de treinamento que mais se assemelha aos dados iniciais.
Ao usar a API, você cria um segmento semelhante com a StartAudienceGenerationJobAPI.
Os dados do provedor de dados de treinamento nunca são compartilhados com o provedor de dados de seed e os dados do provedor de dados de seed nunca são compartilhados com o provedor de dados de treinamento. A saída do segmento de semelhanças é compartilhada com o provedor de dados de treinamento, mas nunca com o provedor de dados de seed.