账户接管见解 - Amazon Fraud Detector

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

账户接管见解

Account Takeover Insights (ATI) 模型类型通过检测账户是否通过恶意收购、网络钓鱼或凭据被盗而遭到入侵,来识别欺诈性的在线活动。Account Takeover Insights 是一种机器学习模型,它使用来自在线业务的登录事件来训练模型。

您可以在实时登录流程中嵌入经过训练的账户接管洞察模型,以检测账户是否遭到入侵。该模型评估了各种身份验证和登录类型。它们包括 Web 应用程序登录、基于 API 的身份验证和 single-sign-on (SSO)。要使用账户接管见解模型,请在出示有效的登录凭据后调用 GetEventPredictionAPI。API 会生成一个分数,用于量化账户被盗的风险。Amazon Fraud Detector 使用您定义的分数和规则返回登录事件的一个或多个结果。结果是您配置的。根据您收到的结果,您可以对每次登录采取适当的措施。也就是说,您可以批准或质疑为登录而提供的凭据。例如,您可以通过要求提供账户 PIN 作为额外验证来质疑凭证。

您还可以使用账户接管见解模型来异步评估账户登录情况,并对高风险账户采取行动。例如,可以将高风险账户添加到调查队列中,供人工审阅者确定是否需要采取进一步行动,例如暂停该账户。

Account Takeover Insights 模型使用包含您企业历史登录事件的数据集进行训练。您提供这些数据。您可以选择将账户标记为合法账户或欺诈账户。但是,这并不是训练模型所必需的。账户接管见解模型根据账户成功登录的历史记录来检测异常情况。它还学习如何检测用户行为中的异常情况,这些异常表明恶意账户盗用事件的风险增加。例如,通常使用同一组设备和 IP 地址登录的用户。欺诈者通常使用不同的设备和地理位置登录。这种技术可以得出活动异常的风险评分,这通常是恶意账户接管的主要特征。

在训练账户接管见解模型之前,Amazon Fraud Detector 使用机器学习技术的组合来进行数据扩充、数据聚合和数据转换。然后,在训练过程中,Amazon Fraud Detector 会丰富您提供的原始数据元素。原始数据元素的示例包括 IP 地址和用户代理。Amazon Fraud Detector 使用这些元素来创建描述登录数据的额外输入。这些输入包括设备、浏览器和地理位置输入。Amazon Fraud Detector 还使用您提供的登录数据来持续计算描述过去用户行为的聚合变量。用户行为的示例包括用户从特定 IP 地址登录的次数。使用这些额外的增强功能和聚合,Amazon Fraud Detector 可以从您的登录事件中获得少量输入来生成强大的模型性能。

Account Takeover Insights 模型可以检测不良行为者访问合法账户的实例,无论不良行为者是人类还是机器人。该模型生成一个单一分数,用于指示账户被盗的相对风险。可能已被盗用的账户会被标记为高风险账户。您可以通过以下两种方式之一处理高风险账户。或者,您也可以强制执行额外的身份验证。或者,您可以将账户发送到队列进行手动调查。

选择数据源

账户接管见解模型是根据存储在内部的 Amazon Fraud Detector 中的数据集进行训练的。要使用 Amazon Fraud Detector 存储您的登录事件数据,请创建一个包含用户登录事件的 CSV 文件。对于每个事件,包括登录数据,例如事件时间戳、用户 ID、IP 地址、用户代理以及登录数据是否有效。创建 CSV 文件后,首先将文件上传到 Amazon Fraud Detector,然后使用导入功能存储数据。然后,您可以使用存储的数据训练模型。有关使用 Amazon Fraud Detector 存储事件数据集的更多信息,请参阅 使用亚马逊Fraud Detector 在内部存储您的事件数据

准备数据

Amazon Fraud Detector 要求您以逗号分隔值 (CSV) 文件形式提供您的用户账户登录数据,该文件以 UTF-8 格式编码。CSV 文件的第一行必须包含文件头。文件头由描述每个数据元素的事件元数据和事件变量组成。标题后面有事件数据。事件数据中的每一行都由来自单个登录事件的数据组成。

对于 Accounts Takeover Insights 模型,您必须在 CSV 文件的标题行中提供以下事件元数据和事件变量。

事件元数据

我们建议您在 CSV 文件标题中提供以下元数据。事件元数据必须使用大写字母。

  • EVENT_ID-登录事件的唯一标识符。

  • ENTITY_TYPE-执行登录事件的实体,例如商家或客户。

  • ENTITY_ID-执行登录事件的实体的标识符。

  • EVENT_TIMESTAMP-登录事件发生的时间戳。时间戳必须采用 ISO 8601 标准(世界标准时间)。

  • EVENT_LABEL(推荐)-将事件归类为欺诈或合法事件的标签。您可以使用任何标签,例如 “欺诈”、“合法”、“1” 或 “0”。

注意
  • 事件元数据必须使用大写字母。它区分大小写。

  • 登录事件不需要标签。但是,我们建议您包含 EVENT_LABEL 元数据并为登录事件提供标签。如果标签不完整或不完整,也没关系。如果您提供标签,Amazon Fraud Detector 将使用它们来自动计算账户接管发现率,并将其显示在模型绩效图表和表格中。

事件变量

对于 Accounts Takeover Insights 模型,您必须提供必需(必须)变量和可选变量。创建变量时,请确保将变量分配给正确的变量类型。作为模型训练过程的一部分,Amazon Fraud Detector 使用与变量关联的变量类型来进行变量扩充和特征工程。

注意

事件变量名称必须使用小写字母。它们区分大小写。

必填变量

训练账户接管洞察模型需要以下变量。

类别 变量类型 描述

IP 地址

IP_ADDRESS

登录事件中使用的 IP 地址

浏览器和设备

用户代理

登录事件中使用的浏览器、设备和操作系统

有效的凭证

VALIDCRED

表示用于登录的凭据是否有效

可选变量

以下变量是训练账户接管洞察模型的可选变量。

类别 类型 描述

浏览器和设备

指纹

浏览器或设备指纹的唯一标识符

会话 ID

SESSION_ID

身份验证会话的标识符

标签

事件标签

将事件归类为欺诈性或合法性的标签。您可以使用任何标签,例如 “欺诈”、“合法”、“1” 或 “0”。

Timestamp

LABEL_TIMESTAMP

标签上次更新的时间戳。如果提供了 EVENT_LABEL,则这是必需的。

注意
  • 您可以为两个必填变量可选变量提供任何变量名称。必须将每个必填变量和可选变量分配给正确的变量类型。

  • 您可以提供其他变量。但是,Amazon Fraud Detector 不会在训练账户接管见解模型时包含这些变量。

选择数据

收集数据是创建 “账户接管洞察” 模型的重要一步。开始收集登录数据时,请考虑以下要求和建议:

必填

  • 提供至少 1,500 个用户账户示例,每个示例至少包含两个关联的登录事件。

  • 您的数据集必须涵盖至少 30 天的登录事件。您可以稍后指定用于训练模型的事件的特定时间范围。

推荐

  • 您的数据集包含登录失败事件的示例。您可以选择将这些失败的登录标记为 “欺诈” 或 “合法”。

  • 使用跨越六个月的登录事件准备历史数据,包括 10 万个实体。

如果您没有已满足最低要求的数据集,可以考虑通过调用 SendEventAPI 操作将事件数据流式传输到 Amazon Fraud Detector。

验证数据

在创建账户接管见解模型之前,Amazon Fraud Detector 会检查您在数据集中包含的用于训练模型的元数据和变量是否符合大小和格式要求。有关更多信息,请参阅数据集验证:它还会检查其他要求。如果数据集未通过验证,则不会创建模型。要成功创建模型,请务必在再次训练之前修复未通过验证的数据。

常见的数据集错误

在验证用于训练账户接管见解模型的数据集时,Amazon Fraud Detector 会扫描这些问题和其他问题,如果遇到一个或多个问题,则会抛出错误。

  • CSV 文件不是 UTF-8 格式。

  • CSV 文件标头不包含以下元数据中的至少一个:EVENT_IDENTITY_ID、或EVENT_TIMESTAMP

  • CSV 文件头不包含以下变量类型的至少一个变量:IP_ADDRESSUSERAGENT、或VALIDCRED

  • 有不止一个变量与同一个变量类型相关联。

  • 中超过 0.1% 的值EVENT_TIMESTAMP包含空值或支持的日期和时间戳格式以外的值。

  • 从第一个事件到最后一个事件之间的天数少于 30 天。

  • 该变量类型的IP_ADDRESS变量中有超过 10% 无效或为空。

  • 超过 50% 的变量类型的USERAGENT变量包含空值。

  • 变量类型的所有VALIDCRED变量都设置为false