Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.
Buat file CSV
Amazon Fraud Detector mengharuskan baris pertama file CSV Anda berisi header kolom. Header kolom dalam file CSV Anda harus memetakan ke variabel yang ditentukan dalam jenis acara. Untuk contoh kumpulan data, lihat Dapatkan dan unggah contoh dataset
Model Online Fraud Insights membutuhkan dataset pelatihan yang memiliki setidaknya 2 variabel dan hingga 100 variabel. Selain variabel acara, kumpulan data pelatihan harus berisi header berikut:
-
EVENT_TIMESTAMP - Mendefinisikan kapan peristiwa terjadi
-
EVENT_LABEL - Mengklasifikasikan acara sebagai penipuan atau sah. Nilai dalam kolom harus sesuai dengan nilai yang ditentukan dalam jenis acara.
Contoh data CSV berikut mewakili peristiwa pendaftaran historis dari pedagang online:
EVENT_TIMESTAMP,EVENT_LABEL,ip_address,email_address 4/10/2019 11:05,fraud,209.146.137.48,fake_burtonlinda@example.net 12/20/2018 20:04,legit,203.0.112.189,fake_davidbutler@example.org 3/14/2019 10:56,legit,169.255.33.54,fake_shelby76@example.net 1/3/2019 8:38,legit,192.119.44.26,fake_curtis40@example.com 9/25/2019 3:12,legit,192.169.85.29,fake_rmiranda@example.org
catatan
File data CSV dapat berisi tanda kutip ganda dan koma sebagai bagian dari data Anda.
Versi sederhana dari jenis acara yang sesuai diwakili di bawah ini. Variabel peristiwa sesuai dengan header dalam file CSV dan nilai EVENT_LABEL
sesuai dengan nilai dalam daftar label.
( name = 'sample_registration', eventVariables = ['ip_address', 'email_address'], labels = ['legit', 'fraud'], entityTypes = ['sample_customer'] )
Format Timestamp Acara
Pastikan stempel waktu acara Anda dalam format yang diperlukan. Sebagai bagian dari proses pembuatan model, tipe model Wawasan Penipuan Online memesan data Anda berdasarkan stempel waktu acara, dan membagi data Anda untuk tujuan pelatihan dan pengujian. Untuk mendapatkan perkiraan kinerja yang adil, model pertama-tama melatih kumpulan data pelatihan, dan kemudian menguji model ini pada kumpulan data pengujian.
Amazon Fraud Detector mendukung format tanggal/stempel waktu berikut untuk nilai selama pelatihan model: EVENT_TIMESTAMP
%YYYY-%mm-%ddt%HH: %mm: %SSZ (standar ISO 8601 di UTC hanya tanpa milidetik)
Contoh: 2019-11-30T 13:01:01 Z
-
%yyy/%mm/%dd %hh: %mm: %ss (AM/PM)
Contoh: 2019/11/30 13:01:01 PM, atau 2019/11/30 13:01:01
%mm/%dd/%yyyy %hh: %mm: %ss
Contoh: 30/11/2019 13:01:01 PM, 11/30/2019 13:01:01
%mm/%dd/%yy %hh: %mm: %ss
Contoh: 30/11/19 13:01:01 PM, 11/30/19 13:01:01
Amazon Fraud Detector membuat asumsi berikut saat mengurai format tanggal/stempel waktu untuk stempel waktu acara:
Jika Anda menggunakan standar ISO 8601, itu harus sama persis dengan spesifikasi sebelumnya
Jika Anda menggunakan salah satu format lain, ada fleksibilitas tambahan:
Selama berbulan-bulan dan berhari-hari, Anda dapat memberikan digit tunggal atau ganda. Misalnya, 1/12/2019 adalah tanggal yang valid.
Anda tidak perlu menyertakan hh:mm: ss jika Anda tidak memilikinya (ya, Anda cukup memberikan tanggal). Anda juga dapat memberikan subset hanya jam dan menit (misalnya, hh:mm). Hanya menyediakan jam tidak didukung. Milidetik juga tidak didukung.
Jika Anda memberikan AM/PM labels, a 12-hour clock is assumed. If there is no AM/PM informasi, diasumsikan jam 24 jam.
Anda dapat menggunakan “/” atau “-” sebagai pembatas untuk elemen tanggal. “:” diasumsikan untuk elemen stempel waktu.
Mengambil sampel kumpulan data Anda sepanjang waktu
Kami menyarankan Anda memberikan contoh penipuan dan sampel yang sah dari rentang waktu yang sama. Misalnya, jika Anda memberikan peristiwa penipuan dari 6 bulan terakhir, Anda juga harus memberikan acara yang sah yang secara merata mencakup periode waktu yang sama. Jika kumpulan data Anda berisi distribusi penipuan dan peristiwa yang sah yang sangat tidak merata, Anda mungkin menerima kesalahan berikut: “Distribusi penipuan sepanjang waktu sangat fluktuasi. Tidak dapat membagi kumpulan data dengan benar.” Biasanya, perbaikan termudah untuk kesalahan ini adalah memastikan bahwa peristiwa penipuan dan peristiwa yang sah diambil sampelnya secara merata di seluruh jangka waktu yang sama. Anda juga mungkin perlu menghapus data jika Anda mengalami lonjakan besar dalam penipuan dalam waktu singkat.
Jika Anda tidak dapat menghasilkan data yang cukup untuk membuat kumpulan data yang terdistribusi secara merata, salah satu pendekatannya adalah dengan mengacak EVENT_TIMESTAMP peristiwa Anda sehingga terdistribusi secara merata. Namun, hal ini sering mengakibatkan metrik kinerja menjadi tidak realistis karena Amazon Fraud Detector menggunakan EVENT_TIMESTAMP untuk mengevaluasi model pada subset peristiwa yang sesuai dalam kumpulan data Anda.
Nilai nol dan hilang
Amazon Fraud Detector menangani nilai nol dan hilang. Namun, persentase nol untuk variabel harus dibatasi. Kolom EVENT_TIMESTAMP dan EVENT_LABEL tidak boleh berisi nilai yang hilang.
Validasi file
Amazon Fraud Detector akan gagal melatih model jika salah satu kondisi berikut dipicu:
-
Jika CSV tidak dapat diurai
-
Jika tipe data untuk kolom salah