建立 CSV 檔案 - Amazon Fraud Detector

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

建立 CSV 檔案

Amazon Fraud Detector 要求您 CSV 檔案的第一列包含資料欄標頭。CSV 檔案中的資料欄標頭必須對應至事件類型中定義的變數。如需範例資料集,請參閱 取得和上傳範例資料集

Online Fraud Insights 模型需要的訓練資料集至少具有 2 個變數,最多 100 個變數。除了事件變數之外,訓練資料集必須包含下列標頭:

  • EVENT_TIMESTAMP - 定義事件發生的時間

  • EVENT_LABEL - 將事件分類為詐騙或合法。資料欄中的值必須對應至事件類型中定義的值。

以下範例 CSV 資料代表來自線上商家的歷史註冊事件:

EVENT_TIMESTAMP,EVENT_LABEL,ip_address,email_address 4/10/2019 11:05,fraud,209.146.137.48,fake_burtonlinda@example.net 12/20/2018 20:04,legit,203.0.112.189,fake_davidbutler@example.org 3/14/2019 10:56,legit,169.255.33.54,fake_shelby76@example.net 1/3/2019 8:38,legit,192.119.44.26,fake_curtis40@example.com 9/25/2019 3:12,legit,192.169.85.29,fake_rmiranda@example.org
注意

CSV 資料檔案可包含雙引號和逗號做為資料的一部分。

對應的事件類型的簡化版本如下所示。事件變數對應至 CSV 檔案中的標頭,而 中的值EVENT_LABEL對應至標籤清單中的值。

( name = 'sample_registration', eventVariables = ['ip_address', 'email_address'], labels = ['legit', 'fraud'], entityTypes = ['sample_customer'] )

事件時間戳記格式

確保您的事件時間戳記為必要格式。作為模型建置程序的一部分,線上 Fraud Insights 模型類型會根據事件時間戳記來排序您的資料,並分割您的資料以供訓練和測試之用。為了獲得效能的公平預估,模型會先在訓練資料集上進行訓練,然後在測試資料集上測試此模型。

Amazon Fraud Detector 支援模型訓練EVENT_TIMESTAMP期間 中值的下列日期/時間戳記格式:

  • %yyyy-%mm-%ddT%hh:%mm:%ssZ (僅限無毫秒的 UTC 中的 ISO 8601 標準)

    範例:2019-11-30T13:01:01Z

  • %yyyy/%mm/%dd %hh:%mm:%ss (AM/PM)

    範例:2019/11/30 下午 1:01:01 或 2019/11/30 13:01:01

  • %mm/%dd/%yyyy %hh:%mm:%ss

    範例:11/30/2019 下午 1:01:01、11/30/2019 13:01:01

  • %mm/%dd/%yy %hh:%mm:%ss

    範例:11/30/19 下午 1:01:01、11/30/19 13:01:01

剖析事件時間戳記的日期/時間戳記格式時,Amazon Fraud Detector 會做出下列假設:

  • 如果您使用的是 ISO 8601 標準,則必須完全符合上述規格

  • 如果您使用其他其中一種格式,還有其他彈性:

    • 對於月和日,您可以提供單位數或雙位數。例如,1/12/2019 是有效的日期。

    • 如果您沒有 hh:mm:ss (taht 是您可以直接提供日期),則不需要包含 hh:mm:ss。您也可以提供僅小時和分鐘的子集 (例如,hh:mm)。不支援僅提供小時。也不支援毫秒。

    • 如果您提供 AM/PM 標籤,則會假設 12 小時制。如果沒有 AM/PM 資訊,則會假設 24 小時制。

    • 您可以使用 "/" 或 "-" 做為日期元素的分隔符號。時間戳記元素會採用 ":"。

跨時間取樣資料集

我們建議您提供相同時間範圍內的詐騙和合法範例。例如,如果您提供過去 6 個月的詐騙事件,您也應該提供平均跨越相同時段的合法事件。如果您的資料集包含高度不均勻的詐騙和合法事件分佈,您可能會收到以下錯誤:「跨時間的詐騙分佈不可接受的波動。無法正確分割資料集。」 一般而言,此錯誤的最簡單修正方式是確保詐騙事件和合法事件在相同的時間範圍內進行平均抽樣。如果您在短時間內發生詐騙大幅遽增,您可能也需要移除資料。

如果您無法產生足夠的資料來建立平均分佈的資料集,其中一種方法是隨機化事件的 EVENT_TIMESTAMP,使其平均分佈。不過,這通常會導致效能指標不切實際,因為 Amazon Fraud Detector 使用 EVENT_TIMESTAMP 來評估資料集中適當事件子集的模型。

Null 和遺失值

Amazon Fraud Detector 會處理 null 值和遺失值。不過,變數的 null 百分比應該受到限制。EVENT_TIMESTAMP 和 EVENT_LABEL 資料欄不應包含任何缺少的值。

檔案驗證

如果觸發下列任何條件,Amazon Fraud Detector 將無法訓練模型:

  • 如果無法剖析 CSV

  • 如果資料欄的資料類型不正確