Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.
BDAmenyediakan kemampuan normalisasi yang memungkinkan Anda mengonversi dan menstandarisasi data yang diekstraksi sesuai dengan kebutuhan spesifik Anda. Tugas normalisasi ini dapat dikategorikan ke dalam Normalisasi Kunci dan Normalisasi Nilai.
Normalisasi kunci
Dalam banyak kasus, bidang dokumen dapat memiliki variasi dalam cara mereka diwakili atau diberi label. Misalnya, bidang “Nomor Jaminan Sosial” dapat muncul sebagai “SSN,” “ID Pajak,” “TIN,” atau variasi serupa lainnya. Untuk mengatasi tantangan ini, BDA menawarkan Normalisasi Kunci, yang memungkinkan Anda memberikan instruksi tentang variasi dalam definisi bidang Anda.
Dengan memanfaatkan normalisasi kunci, Anda dapat memandu BDA untuk mengenali dan memetakan representasi yang berbeda dari bidang yang sama ke kunci standar. Fitur ini memastikan bahwa data secara konsisten diekstraksi dan diatur, terlepas dari variasi yang ada dalam dokumen sumber.
Bidang | Instruksi | Jenis Ekstraksi | Tipe |
---|---|---|---|
LastName |
Nama belakang atau Nama keluarga orang |
Eksplisit |
String |
BirthNum |
Nomor Dokumen atau nomor file akta kelahiran |
Eksplisit |
String |
OtherIncome |
Penghasilan lain, termasuk bensin federal dan negara bagian atau kredit pajak bahan bakar atau pengembalian uang |
Eksplisit |
Jumlah |
BusinessName |
Nama bisnis, kontraktor atau entitas yang mengisi W9 |
Eksplisit |
String |
faktor daya |
Faktor daya atau pengganda yang digunakan untuk item baris penggunaan ini |
Eksplisit |
String |
BirthPlace |
Nama Rumah Sakit atau institusi tempat anak dilahirkan |
Eksplisit |
String |
Penyebab Cedera |
Penyebab cedera atau penyakit akibat kerja, termasuk bagaimana hal itu terkait dengan pekerjaan |
Eksplisit |
String |
Untuk bidang dengan set nilai atau enumerasi yang telah ditentukan sebelumnya, Anda dapat memberikan nilai atau rentang yang diharapkan dalam instruksi bidang. Kami menyarankan Anda menyertakan variasi tanda kutip seperti yang ditunjukkan pada contoh.
Bidang | Instruksi | Jenis Ekstraksi | Tipe |
---|---|---|---|
LICENSE_CLASS |
Kode kelas huruf tunggal, salah satu dari “A”, “B” atau “C” |
Eksplisit |
String |
jenis kelamin |
Seks. Salah satu dari “M” atau “F” |
Eksplisit |
String |
InformantType |
Jenis informasinya. Salah satu dari “Orang Tua” atau “Lainnya” |
Eksplisit |
String |
INFORMATION COLLECTION CHANNEL |
ONEAMONGFOLLOWING: "FACEKE FACE INTERVIEW “," TELEPHONE INTERVIEW “," FAX ATAU MAIL “," EMAIL ATAUINTERNET” |
Eksplisit |
String |
Normalisasi nilai
Normalisasi nilai adalah tugas utama dalam pipa pemrosesan data, di mana data yang diekstraksi perlu diubah menjadi format yang konsisten dan standar. Proses ini memastikan bahwa sistem hilir dapat mengkonsumsi dan memproses data dengan mulus, tanpa menghadapi masalah kompatibilitas atau ambiguitas.
Dengan menggunakan kemampuan normalisasi diBDA, Anda dapat menstandarisasi format, mengonversi unit pengukuran, dan mentransmisikan nilai ke tipe data tertentu.
Untuk tugas Normalisasi Nilai, jenis ekstraksi yang disimpulkan harus digunakan karena nilainya mungkin tidak sama persis dengan teks mentah atau OCR dokumen setelah dinormalisasi. Misalnya, nilai tanggal seperti “06/25/2022" yang perlu diformat menjadi" YYYY -MM-DD” akan diekstraksi sebagai “2022-06-25" setelah normalisasi, sehingga tidak cocok dengan output dari dokumen. OCR
Format Standardisasi: Anda dapat mengonversi nilai ke format yang telah ditentukan sebelumnya, seperti kode yang dipersingkat, skema penomoran, atau format tanggal tertentu. Ini memungkinkan Anda untuk memastikan konsistensi dalam representasi data dengan mematuhi standar industri atau konvensi organisasi.
Bidang | Instruksi | Jenis Ekstraksi | Tipe |
---|---|---|---|
ssn |
ItuSSN, diformat sebagai XXX-XX-XXX |
Disimpulkan |
String |
STATE |
Kode dua huruf negara |
Disimpulkan |
String |
EXPIRATION_DATE |
Tanggal kedaluwarsa dalam format YYYY-MM-DD |
Disimpulkan |
String |
DATE_DARI_ BIRTH |
Tanggal lahir pengemudi dalam YYYY-MM-DD format |
Disimpulkan |
String |
CHECK_DATE |
Tanggal cek telah ditandatangani. Reformat ke YYYY-MM-DD |
Disimpulkan |
String |
PurchaseDate |
Tanggal pembelian kendaraan dalam mm/dd/yy format |
Disimpulkan |
String |
Anda juga dapat mengonversi nilai ke unit pengukuran standar atau ke tipe data tertentu dengan menangani skenario seperti Tidak berlaku.
Bidang | Instruksi | Jenis Ekstraksi | Tipe |
---|---|---|---|
WEIGHT |
Berat dikonversi menjadi pound |
Disimpulkan |
Jumlah |
HEIGHT |
Tinggi dikonversi ke inci |
Disimpulkan |
Jumlah |
nonqualified_plans_income |
Nilai di bidang 11. 0 jika N/A. |
Disimpulkan |
Jumlah |