AWS Clean Rooms ML - AWS Clean Rooms

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

AWS Clean Rooms ML

AWS Clean Rooms ML

AWS Clean Rooms 机器学习为双方提供了一种隐私保护方法,可以识别其数据中的相似用户,而无需彼此共享数据。第一方将训练数据带到, AWS Clean Rooms 这样他们就可以创建和配置外观相似的模型并将其与协作关联起来。然后,第二方将其种子数据带到 AWS Clean Rooms 并生成类似于训练数据的相似区段。

有关其工作方式的更详细说明,请参阅跨账户作业

  • 训练数据提供者 - 贡献训练数据、创建和配置相似模型并将该相似模型与一个协作关联的一方。

  • 种子数据提供者 - 贡献种子数据、生成相似细分并导出其相似细分的一方。

  • 训练数据 - 训练数据提供者的数据,用于生成相似模型。训练数据用于测量用户行为的相似性。

    训练数据必须包含用户 ID、项目 ID 和时间戳列。(可选)训练数据可以包含其他交互作为数值或分类特征。举例而言,交互可以是观看的视频、购买的物品或阅读的文章列表。

  • 种子数据 - 种子数据提供者的数据,用于创建相似细分。相似细分输出是训练数据中与种子用户最相似的一组用户。

  • 相似模型 - 训练数据的机器学习模型,用于在其他数据集中查找相似用户。

    在使用 API 时,受众模型 术语等同于相似模型。例如,您可以使用 CreateAudienceModelAPI 创建外观相似的模型。

  • Lookalik e segment — 与种子数据最为相似的训练数据子集。

    使用 API 时,您可以使用 API 创建外观相似的StartAudienceGenerationJob区段。

训练数据提供者的数据绝不会与种子数据提供者共享,并且种子数据提供者的数据绝不会与训练数据提供者共享。相似细分输出与训练数据提供者共享,但绝不会与种子数据提供者共享。

有关相似模型的更多信息,请参阅以下主题。

AWS Clean Rooms 机器学习的工作原理

AWS Clean Rooms 机器学习的工作原理概述...

Clean Rooms ML 要求两方,即训练数据提供者和种子数据提供者,按顺序协作,将他们的数据整合到协作中。 AWS Clean Rooms 以下是训练数据提供者必须先完成的工作流程:

  1. 训练数据提供者的数据必须存储在用户-项目交互 AWS Glue 的数据目录表中。训练数据必须至少包含用户 ID 列、交互 ID 列和时间戳列。

  2. 训练数据提供者向注册训练数据 AWS Clean Rooms。

  3. 训练数据提供者创建一个相似模型,可以将其与多个种子数据提供者共享。相似模型是一种深度神经网络,训练时间可能长达 24 小时。该模型不会自动重新训练,我们建议您每周重新训练一次。

  4. 训练数据提供者配置相似模型,包括是否共享相关性指标以及输出细分的 Amazon S3 位置。训练数据提供者可以通过单个相似模型创建多个配置的相似模型。

  5. 训练数据提供者将配置的受众模型关联到与某个种子数据提供者共享的协作。

以下是种子数据提供者接下来必须完成的工作流程:

  1. 种子数据提供者的数据必须存储在 Amazon S3 存储桶中。

  2. 种子数据提供者开启与训练数据提供者共享的协作。

  3. 种子数据提供者从协作页面的 “Clean Rooms ML” 选项卡中创建一个相似的区段。

  4. 种子数据提供者可以评估相关性指标(如果已共享),并导出相似细分以在 AWS Clean Rooms外部使用。