在线欺诈洞察

Online Fraud Insights 是一种受监督的机器学习模型，这意味着它使用欺诈和合法交易的历史示例来训练模型。在线欺诈洞察模型可以根据少量历史数据检测欺诈。该模型的输入非常灵活，因此您可以对其进行调整以检测各种欺诈风险，包括虚假评论、促销滥用和房客结账欺诈。

Online Fraud Insights 模型使用一系列机器学习算法进行数据扩充、转换和欺诈分类。作为模型训练过程的一部分，Online Fraud Insights使用第三方数据（例如IP地址或信用卡的发卡银行）丰富了IP地址和BIN号等原始数据元素。除第三方数据外，Online Fraud Insights还使用深度学习算法，该算法考虑了在亚马逊和亚马逊上看到的欺诈模式 AWS。使用梯度树提升算法，这些欺诈模式将成为模型的输入特征。

为了提高性能，Online Fraud Insights 通过贝叶斯优化过程优化梯度树提升算法的超参数。它按顺序训练数十种具有不同模型参数（例如树木数量、树木深度和每片树叶的样本数）的不同模型。它还使用不同的优化策略，例如增加少数族裔欺诈群体的权重，以应对非常低的欺诈率。

选择数据源

在训练在线欺诈洞察模型时，您可以选择根据存储在外部（Amazon Fraud Detector 之外）或存储在 Amazon Fraud Detector 中的事件数据来训练模型。Amazon Fraud Detector 目前支持的外部存储是亚马逊简单存储服务 (Amazon S3) Service。如果您使用的是外部存储，则必须将事件数据集以逗号分隔值 (CSV) 格式上传到 Amazon S3 存储桶。在模型训练配置中，这些数据存储选项被称为 EXTERNAL_EVENTS（用于外部存储）和 INGESTED_EVENTS（用于内部存储）。有关可用数据源以及如何在其中存储数据的更多信息，请参阅事件数据存储。

准备数据

无论您选择将事件数据存储在哪里（Amazon S3 或 Amazon Fraud Detector），对在线欺诈洞察模型类型的要求都是一样的。

您的数据集必须包含列标题 EVENT_LABEL。此变量将事件归类为欺诈事件或合法事件。使用 CSV 文件（外部存储）时，必须在文件中包含每个事件的 EVENT_LABEL。对于内部存储，EVENT_LABEL 字段是可选的，但必须标记所有事件才能包含在训练数据集中。在配置模型训练时，您可以选择是忽略未标记的事件，为未标记的事件假设合法标签，还是为所有未标记的事件假设欺诈性标签。

选择数据

有关选择用于训练在线欺诈洞察模型的数据的信息，请参阅收集事件数据。

在线欺诈洞察训练流程基于事件_TIMESTAMP对历史数据进行采样和分区。无需手动对数据进行采样，这样做可能会对模型结果产生负面影响。

事件变量

除了所需的事件元数据外，Online Fraud Insights 模型至少需要两个变量，这些变量已通过模型训练的数据验证，并且每个模型最多允许 100 个变量。通常，您提供的变量越多，模型就越能更好地区分欺诈和合法事件。虽然 Online Fraud Insights 模型可以支持数十个变量，包括自定义变量，但我们建议将 IP 地址和电子邮件地址包括在内，因为这些变量通常在识别被评估的实体方面最有效。

验证数据

作为培训过程的一部分，Online Fraud Insights 将验证数据集中是否存在可能影响模型训练的数据质量问题。验证数据后，Amazon Fraud Detector 将采取适当的措施来构建尽可能好的模型。这包括针对潜在的数据质量问题发出警告，自动删除存在数据质量问题的变量，或者发出错误并停止模型训练过程。有关更多信息，请参阅数据集验证。

Javascript 在您的浏览器中被禁用或不可用。

要使用 Amazon Web Services 文档，必须启用 Javascript。请参阅浏览器的帮助页面以了解相关说明。

文档惯例

选择模型类型

交易欺诈见解