在线欺诈洞察 - Amazon Fraud Detector

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

在线欺诈洞察

Online Fraud Insights 是一种受监督的机器学习模型,这意味着它使用欺诈和合法交易的历史示例来训练模型。在线欺诈洞察模型可以根据少量历史数据检测欺诈。该模型的输入非常灵活,因此您可以对其进行调整以检测各种欺诈风险,包括虚假评论、促销滥用和房客结账欺诈。

Online Fraud Insights 模型使用一系列机器学习算法进行数据扩充、转换和欺诈分类。作为模型训练过程的一部分,Online Fraud Insights使用第三方数据(例如IP地址或信用卡的发卡银行)丰富了IP地址和BIN号等原始数据元素。除第三方数据外,Online Fraud Insights还使用深度学习算法,该算法考虑了在亚马逊和亚马逊上看到的欺诈模式AWS。使用梯度树提升算法,这些欺诈模式将成为模型的输入特征。

为了提高性能,Online Fraud Insights 通过贝叶斯优化过程优化梯度树提升算法的超参数。它按顺序训练数十种具有不同模型参数(例如树木数量、树木深度和每片树叶的样本数)的不同模型。它还使用不同的优化策略,例如增加少数族裔欺诈群体的权重,以应对非常低的欺诈率。

选择数据源

在训练在线欺诈洞察模型时,您可以选择根据存储在外部(Amazon Fraud Detector 之外)或存储在 Amazon Fraud Detector 中的事件数据来训练模型。Amazon Fraud Detector 目前支持的外部存储是亚马逊简单存储服务 (Amazon S3) Service。如果您使用的是外部存储,则必须将事件数据集以逗号分隔值 (CSV) 格式上传到 Amazon S3 存储桶。在模型训练配置中,这些数据存储选项被称为 EXTERNAL_EVENTS(用于外部存储)和 INGESTED_EVENTS(用于内部存储)。有关可用数据源以及如何在其中存储数据的更多信息,请参阅事件数据存储

准备数据

无论您选择将事件数据存储在哪里(Amazon S3 或 Amazon Fraud Detector),对在线欺诈洞察模型类型的要求都是一样的。

您的数据集必须包含列标题 EVENT_LABEL。此变量将事件归类为欺诈事件或合法事件。使用 CSV 文件(外部存储)时,必须在文件中包含每个事件的 EVENT_LABEL。对于内部存储,EVENT_LABEL 字段是可选的,但必须标记所有事件才能包含在训练数据集中。在配置模型训练时,您可以选择是忽略未标记的事件,为未标记的事件假设合法标签,还是为所有未标记的事件假设欺诈性标签。

选择数据

有关选择用于训练在线欺诈洞察模型的数据的信息,请参阅收集事件数据。

在线欺诈洞察训练流程基于事件_TIMESTAMP对历史数据进行采样和分区。无需手动对数据进行采样,这样做可能会对模型结果产生负面影响。

事件变量

除了所需的事件元数据外,Online Fraud Insights 模型至少需要两个变量,这些变量已通过模型训练的数据验证,并且每个模型最多允许 100 个变量。通常,您提供的变量越多,模型就越能更好地区分欺诈和合法事件。虽然 Online Fraud Insights 模型可以支持数十个变量,包括自定义变量,但我们建议将 IP 地址和电子邮件地址包括在内,因为这些变量通常在识别被评估的实体方面最有效。

验证数据

作为培训过程的一部分,Online Fraud Insights 将验证数据集中是否存在可能影响模型训练的数据质量问题。验证数据后,Amazon Fraud Detector 将采取适当的措施来构建尽可能好的模型。这包括针对潜在的数据质量问题发出警告,自动删除存在数据质量问题的变量,或者发出错误并停止模型训练过程。有关更多信息,请参阅数据集验证